Article de Laurent LAUNET parut dans le journal Libération.


- 500 milliards de pages oubliées dans les abysses du Web -
" Les moteurs de recherche en laissent passer la quasi-totalité. "

Il existe des centaines de milliards de documents précieux, enfouis dans des bases d'informations, qui ne peuvent être retrouvés par les moteurs de recherches.» On savait que les outils classiques de recherche ne ratissaient que la «surface» du Web, soit environ 1 milliard de pages (1). Mais le constat de la société américaine BrightPlanet surprend par son ampleur.

Selon elle, le Web contiendrait en réalité de 400 à 550 milliards de documents, dont la quasi-totalité reste inaccessible aux «robots» qui indexent automatiquement la Toile. La raison en est que ces documents sont abrités dans des bases de données consultables par mots clés et qu'ils ne peuvent être répertoriés que par des requêtes en bonne et due forme. Pour sonder ce Web «profond», BrightPlanet a utilisé un outil, baptisé LexiBot, qui s'est tapé le boulot à hautes doses au printemps dernier. Le logiciel a exploré ce que BrightPlanet appelle des «sites profonds», notamment ceux des grands organismes de recherches et des bibliothèques (voir ci-dessous), qui peuvent héberger jusqu'à plusieurs centaines de milliers de milliards d'octets: en abrégé, des centaines de téraoctets!

100 000 fosses. A eux seuls, les 60 sites les plus «profonds» du monde contiendraient 750 téraoctets de données, soit 40 fois plus d'informations que tout le Web «apparent» (celui auquel les moteurs de recherche courants sont susceptibles de donner accès). Bref, les plongeurs sont tombés sur des fosses abyssales. Il y en aurait environ 100 000 sous la cybermer. Réunis, ces gouffres d'information formeraient un ensemble 1 000 à 2 000 fois plus grand que la Toile de «surface».

Plus de la moitié de ces mégasites abritent des bases de données spécialisées (comme les banques d'images de la Nasa et du Centre américain d'études des climats). On y trouve aussi des sites commerciaux: MP3.com (fichiers musicaux), amazon.com (livres et disques), ebay.com (objets aux enchères) ou encore Terraserver, la base d'images satellite de Microsoft. Le premier mégasite français serait celui du Centre de données astronomiques de Strasbourg.

Mais les auteurs de l'étude admettent que leur recensement est très incomplet. Deux relatifs inconnus dans le hit-parade: le réseau américain Right to Know, qui fédère des bases de données sur l'environnement, et Alexa.com, qui finance un projet d'archivage du Web.

Si demain les internautes pouvaient pratiquer le surf en profondeur, sans doute se retrouveraient-ils noyés sous une masse de documents qui leur seraient parfaitement inutiles. Qui se soucie, à part les chercheurs, de disposer de 40 000 clichés de telle ou telle nébuleuse? L'urgence serait plutôt d'être mieux guidé dans le fatras d'informations disponibles sur le Web «accessible». Lequel continue de grossir à la vitesse d'1,5 million de documents par jour (selon la société Inktomi).

Du coup, l'internaute de base a aujourd'hui tendance à privilégier des outils comme Google, dont les recherches sont relativement sélectives et souvent fondées sur la popularité des pages. Résultat: plus une page est consultée, plus on la consulte. L'effet pervers, évidemment, est que le champ d'action des recherches se trouve encore plus restreint. Il faudra bien un jour résoudre ce paradoxe.

La divergence croissante entre l'information disponible et l'information retrouvable peut être illustrée en quelques chiffres. En 1994, alors que le Web était tout jeune, un moteur comme Lycos recensait 54 000 documents.

Moteurs en panne. Fin 1997, dans un article de la revue Science, des chercheurs américains du NEC Research Institute dénombraient 320 millions de pages. Début 2000, NEC, en collaboration avec Inktomi, arrivait au chiffre de 1 milliard (signalé dans Nature cette fois). L'étude soulignait d'ailleurs que l'efficacité des moteurs de recherche ne cessait de décroître: si ces outils arrivaient à «couvrir» 32 % du Web de surface en 1998, ils n'en balayaient plus que 16 % en 1999.

Et voilà que BrightPlanet, évidemment soucieux de «vendre» ses propres outils de recherche, annonce avec fracas que le Web réel est 500 fois plus grand qu'on le croyait. L'efficacité des moteurs tomberait alors à 0,03 %! Et, pour ne rien arranger, le Web «profond» est celui dont la taille croît le plus vite.

(1) Voir notamment les travaux menés par les chercheurs d'Altavista et de Compaq, avec le soutien de mathématiciens d'IBM, qui ont dressé une carte du Web en forme de nœud papillon (Libération du 17 mai 2000).


Le hit-parade des mégasites Accès Taille en milliards d'octets (Go) :

National Climatic Data Center (NOAA) Public 366 000 Go
NASA EOSDIS Public 219 600 Go
National Oceanographic(NODC) and Geophysical Data Center(NGDC) Public/payant 32 940 Go
DBT Online Payant 30 500 Go
Alexa Restreint 15 860 Go
Right-to-Know Network (RTK Net) Public 14 640 Go
Lexis-Nexis Payant 12 200 Go
Dialog Payant 10 980 Go
Genealogy-ancestry.com Payant 6 500 Go
MP3.com Public 4 300 Go

Retour


Accueil Web promotion Meta tag Contact

FAQ Spamdexing Moteurs de recherche Devis

Audit gratuit Plan du site