Rechercher
Rechercher

Actualités - REPORTAGES

WEB-CULTURE - www.archive.org - Y a-t-il quelqu’un pour archiver le Net ?

L’Internet grossit vite, trop vite, s’alarment certains. Le Web compte aujourd’hui deux à quatre milliards de pages selon les études, et entre quatre et huit millions de pages supplémentaires sont créées chaque jour. Chaque seconde, des millions de pages sont modifiées ou disparaissent. Partout dans le monde, des réflexions autour d’une conservation de la mémoire mouvante du réseau des réseaux se mettent en place. Techniquement, l’informatique permet de garder une trace des données mises en ligne. Mais existe-t-il un intérêt à archiver la profusion de textes, de sons et d’images qui se bousculent sur le réseau comme on le fait pour le papier, collections de journaux, images télévisées, émissions de radio et, depuis un certain temps déjà, pour certaines données informatiques ? Le chantier est aussi vaste que les questions qu’il soulève. Aux États-Unis, Internet Archive est une initiative privée d’archivage du Web. En France, l’État rappelle que sa «mission consiste à mettre en place le dispositif de conservation de la mémoire». Les Archives nationales de France sont sollicitées : il est question que le cadre du dépôt légal s’élargisse à l’Internet. De son côté, la Bibliothèque nationale de France réfléchit à un archivage entier du réseau. Support récent, l’Internet pose un nouveau défi aux archivistes. Sites officiels, sites associatifs, sites personnels, forums de discussions ou comptes-rendus de comités d’entreprise glissés sur un Intranet professionnel sont susceptibles d’être conservés. La prochaine loi sur la société de l’information apportera peut-être quelques balises. En attendant, le débat est ouvert. Internet Archive.com possède des robots qui parcourent la Toile archivant sans relâche le contenu de l’Internet : elles contactent périodiquement les serveurs du monde entier et prennent des «photos instantanées» des pages de chacun des sites Web détectés. Plus de 1,2 milliard de pages sont déjà archivées, et 120 millions de nouvelles pages sont ajoutées chaque semaine. «Nous avons déjà sans doute sauvegardé l’équivalent de la bibliothèque du Congrès à Washington», dit Scott Kirkpatrick, chercheur retraité d’IBM, directeur exécutif de Internet Archive. Et même si le Web, tel qu’on le connaît, n’a guère que cinq ans et que ses acteurs sont encore vivants, personne n’avait initié un tel projet. «Mais quelqu’un devait le faire», résume Scott Kirkpatrick. La tâche est évidemment démesurée : expurgé de son contenu vidéo et audio, l’Internet «pèse» entre 30 et 100 teraoctets, estime-t-il, soit l’équivalent de près de cent milliards de romans. Certains sites refusent d’être archivés : ils activent des filtres spéciaux, pour empêcher des intrus de sauvegarder leurs pages. Et les journaux comme le New York Times, qui exigent un mot de passe, sont également laissés de côté. L’accès aux archives reste encore limité et, à vrai dire, il est quasiment impossible de les consulter. Trop lourd. Pas encore d’outils pour extirper des informations précises de cette masse de données. Seules quelques centaines de personnes avec des connaissances pointues en informatique ont obtenu un sésame pour effectuer des recherches. Mais Kirkpatrick espère que les archives seront accessibles en ligne d’ici deux à quatre ans pour permettre aux générations futures de surfer sur «l’Internet de papa». Questions de copyrights Aujourd’hui gratuites, les archives pourraient devenir payantes pour les entreprises. Les cabinets d’avocats spécialisés en cybercriminalité devraient apprécier le service. Pour Tim Stanley, fondateur du portail juridique Findlaw, l’archivage peut aussi fournir du travail aux avocats : «Cette activité pose des questions de copyrights. Des tas de documents sont stockés pour la postérité sous une forme qui a pu être changée à une date ultérieure. Ce qui devait être temporaire est inscrit pour durer... Cela risque de poser des tas de problèmes». En tous cas, sur la homepage de archive.com, on peut effacer son site des archives.
L’Internet grossit vite, trop vite, s’alarment certains. Le Web compte aujourd’hui deux à quatre milliards de pages selon les études, et entre quatre et huit millions de pages supplémentaires sont créées chaque jour. Chaque seconde, des millions de pages sont modifiées ou disparaissent. Partout dans le monde, des réflexions autour d’une conservation de la mémoire...