L'impossible carte d'Internet.

Des centaines de milliers d'entreprises et d'institutions interviennent de façon indépendante dans la construction d'Internet, sans autorité centrale. C'est cette ouverture, cette possibilité laissée à chacun d'intervenir, qui lui ont permis de se développer à une vitesse vertigineuse. Ceci a cependant une conséquence inattendue : personne n'est aujourd'hui capable de dire à quoi Internet ressemble précisément. Nous sommes face à d'immenses territoires inconnus, qu'il s'agit d'explorer afin d'en dresser des cartes, comme nos ancêtres l'ont fait pour les mers et les continents.

Si vous voulez obtenir une carte des chemins de fer de votre pays, il vous suffit a priori de vous rendre à la gare la plus proche et de demander la carte au guichet. S'il y a plusieurs compagnies de chemins de fer, vous devrez peut être aller dans une gare de chaque compagnie, mais finalement vous obtiendrez la carte souhaitée sans trop de difficultés : il suffit de fusionner les cartes des différentes compagnies. Si vous voulez obtenir la carte mondiale des chemins de fer, c'est-à-dire la carte de tous les réseaux ferrés de la planète, vous procèderez de la même manière : chaque compagnie de chaque pays vous fournira sa propre carte, et vous obtiendrez finalement la totalité des informations nécessaires à l'élaboration de votre carte. Ceci repose sur deux facteurs importants : il y a un nombre raisonnable de pays et de compagnies de chemins de fer, d'une part, et leurs cartes ne sont pas tenues secrètes, d'autre part.

De même que les villes sont reliées par les voies ferrées, les ordinateurs sur Internet sont reliés par des câbles. Et de même que les personnes se déplacent de ville en ville en empruntant des voies qui leur font traverser un certain nombre de villes, les messages sur Internet sont transmis le long des câbles, d'ordinateur en ordinateur. La structure des interconnexions des ordinateurs sur Internet joue par conséquent un rôle central pour de nombreux points importants, comme par exemple la sécurité des transmissions ou la mise au point de protocoles de communication performants. Connaître cette structure est donc crucial.

Si on veut construire une carte d'Internet, il est impossible de s'adresser aux diverses compagnies et institutions qui le composent pour leur demander la carte de la partie du réseau qu'elles gèrent. En effet, on rencontrerait alors les obstacles suivants :

Tous ces facteurs rendent la cartographie d'Internet extrêmement délicate, et en font même une véritable problématique de recherche : comment obtenir des cartes d'Internet, les plus précises et les plus exhaustives possible ?

Il existe une information que toute personne connectée à Internet peut obtenir : si elle envoie un message, elle peut savoir quelle est la suite d'ordinateurs traversés par le message avant d'arriver à destination. Une stratégie pour obtenir une carte d'Internet est alors la suivante (voir Figure 1) :




Fig. 1. Exploration d'un réseau.

Supposons que ce schéma représente les connexions existant réellement entre des machines, nommées de A à L, sur Internet. Supposons de plus qu'un message envoyé d'une machine à une autre emploie toujours un chemin de longueur minimale. Si on explore ce réseau en prenant comme source l'ordinateur F, et qu'on prend successivement comme destinations toutes les autres machines du réseau, quel que soit le choix qu'on effectue quand deux chemins sont possibles, on ne voit jamais les liens A-B, B-C, D-G, G-H et J-H. Si par contre on prend pour source D, alors on ne voit toujours pas A-B et B-C, mais on voit D-G. Par contre, on rate à coup sûr F-G et J-H. Prendre ces deux sources successivement permet donc d'avoir une carte plus complète, mais n'est pas suffisant pour obtenir la totalité des liens.

En principe, cette méthode marche bien, et c'est effectivement celle qui est employée le plus souvent. Dans l'idéal, il faudrait prendre pour destinations toutes les machines d'Internet. C'est cependant totalement impossible, d'une part parce qu'elles sont bien trop nombreuses, et d'autre part parce qu'il n'en existe aucune liste exhaustive nulle part. Soulignons de plus que, même si on pouvait prendre un nombre illimité de destinations, on n'obtiendrait pas toute la carte avec une seule source : de même que tous les rails ne sont pas utiles pour aller de chez vous à toutes les gares du monde, il y a des liaisons entre ordinateurs qui ne seront jamais employées par des messages partant de votre source. C'est pourquoi il est important pour cette méthode de prendre plusieurs sources, et même le plus grand nombre possible. Mais c'est très difficile, car il faut que les sources soient dispersées (si on prend pour sources tous les ordinateurs d'un même bâtiment, les routes que suivront les messages seront a priori très similaires), et les sources doivent être des ordinateurs à partir desquels nous pouvons envoyer des messages, autrement dit des ordinateurs auxquels nous avons accès. Ceci limite grandement le nombre de sources possibles.

Les cartes disponibles aujourd'hui, obtenues à partir de dizaines de sources et de centaines de milliers de destinations, recensent souvent plusieurs millions d'ordinateurs et de liens. Elles restent cependant partielles, et personne n'est en mesure de dire à quel point elles sont représentatives de la réalité sous-jacente. En particulier, on ne sait pas comment la façon dont on obtient la carte influence le résultat. Supposons par exemple qu'on obtient la moitié des liens qui existent vraiment. Il est bien clair que la carte partielle qu'on en déduit n'est pas la même que celle qu'on obtiendrait en prenant un lien sur deux au hasard. Mais en quoi est-elle différente ? Que nous apprend-elle sur la réalité ? Nul ne sait actuellement répondre à ces questions.

Lorsqu'on explore Internet, donc, on ne peut obtenir que des visions partielles et biaisées de l'ensemble. Cette réalité conduit souvent les ingénieurs et les chercheurs à optimiser l'exploration afin d'obtenir la plus grande quantité de données possible. Toutefois, il y a une différence entre "quantité de données" et "quantité d'information" : il est temps aujourd'hui de se demander comment nos méthodes d'exploration influencent nos visions de la réalité, et sur ce que ces visions partielles et biaisées peuvent nous apprendre. Il s'agit plus de savoir interpréter les données disponibles qu'accroître encore leur masse.

Matthieu Latapy.
Commentaires bienvenus.