Avertir le modérateur

18/07/2007

Archivage du Web : Internet entre au Panthéon (1ère partie)

Le futur Dépôt Légal de l’Internet bouleverse les règles de l’archivage classique. En attendant sa mise en application par la loi, l’Institut National de l’Audiovisuel et la Bibliothèque Nationale de France se penchent déjà sur ces nouvelles problématiques d’ordre technique, scientifique et juridique soulevées par l’archivage de l’Internet.


Depuis l’adoption en Conseil des ministres du projet de loi sur la Société de l’Information en juin dernier, le dépôt légal de l’Internet est instauré. Cette décision gouvernementale s’inscrit dans la tradition patrimoniale d’un pays attaché à son passé et à sa mémoire. A l’instar de la télévision, du livre et du cinéma, elle reconnaît aussi Internet comme un média en soi. C’est-à-dire comme un lieu d’information et un reflet de notre société, de ses interrogations et de ses savoirs. Mais, à la différence des médias traditionnels, Internet est ouvert au plus grand nombre en raison de coûts de diffusion réduits et possède un contenu moins filtré que dans la diffusion classique. Si l’analyse de la société va gagner en profondeur et donc en pertinence, tout individu risquera d’accéder, à travers l’archivage de son site, à une postérité pas nécessairement désirée. En outre, cet espace innove en permanence dans ses formats d’expression, notamment au niveau technique. La mission de tout dépôt légal est de conserver un regard fidèle sur les œuvres de notre temps pour les générations futures. Pour s’en acquitter, le (ou les) organisme(s) dépositaire(s) du Dépôt Légal de l’Internet sont appelés à mettre en place des solutions nouvelles pour cet archivage d’un nouveau genre.

Jusqu’à présent, et selon la loi du 20 juin 1992, le dépôt légal s'appliquait déjà aux documents imprimés, graphiques, photographiques, sonores, audiovisuels, multimédias, quel que soit leur procédé technique de fabrication, d'édition ou de diffusion, dès lors qu'ils sont mis à la disposition d'un public. Il concernait également les progiciels, les bases de données, les systèmes experts et les autres produits de l'intelligence artificielle ouverts au public par diffusion sur un support matériel. Tout dépôt légal est organisé afin de permettre la collecte et la conservation des documents de toute nature publiés, produits ou diffusés en France, la constitution et la diffusion de bibliographies nationales ainsi que la consultation des documents, sous réserve des secrets protégés par la loi, dans des conditions conformes à la législation sur la propriété intellectuelle et compatibles avec leur conservation. Depuis le décret d’application du 31 décembre 1993, les organismes dépositaires sont la Bibliothèque Nationale de France, le Centre National de la Cinématographie, l’Institut National de l’Audiovisuel… et le Ministère de l’Intérieur. Jusqu’à maintenant, les documents à conserver étaient remis en mains propres ou adressés aux organismes dépositaires. En raison de la spécificité d’Internet, une modalité particulière de dépôt est d’ores et déjà prévue : « l’aspiration » des contenus. Un modèle déjà existant. L’INA pratique l’archivage à caractère systématique des six chaînes hertziennes en 1995 et d’une dizaine de chaînes du Câble et du satellite seulement depuis janvier 2002. Les éditeurs de service en ligne ne seront donc pas astreints, au titre du dépôt légal, à la moindre démarche active. En revanche, ils ne devront pas s’opposer aux collectes réalisées par les organismes dépositaires.

Contrairement à une idée reçue, archiver Internet n’est pas mission impossible en terme de taille. « Aujourd’hui, le Web mondial, en termes de caractères, représente quelques dizaines de téraoctets. Il tient dans une petite pièce de quelques mètres de côté remplie de quelques dizaines d’ordinateurs. », affirme Dominique Pignon, directeur du projet  « toute la mémoire du monde » Ecole Normale Supérieure / INA sur l’expérimentation du dépôt légal du Web francophone. Pas de crainte non plus quant à la volatilité du Web, dont 70% des pages possèdent une durée de vie inférieure à quatre mois. Il suffit de remettre les chiffres dans leur contexte. « La production littéraire française de chaque année tient sur un disque dur de n’importe quel micro-ordinateur contemporain. Chaque année, les écrits véritablement nouveaux de l’ensemble du monde représentent un demi téraoctet de caractères. Les images, et a fortiori les images vidéo, font entrer dans d’autre ordre de grandeur. Les caractères de 2 bouquins tiennent dans 1 Mo… soit aussi la taille d’une photographie grand public en version compressée. », reprend Dominique Pignon. La production pléthorique de documents sur papier, longue à interroger manuellement, apparaît plus démesurée. Pour exemple, 107 kilomètres de rayonnage sont enregistrés chaque année aux Archives de France.

Mais revenons à nos moutons numériques, source de multiples problématiques. Pour l’archivage de l’Internet, il faut définir quelles parties de l’espace virtuel sélectionner, comment organiser leur collecte et leur conservation, dans quel cadre juridique… mais aussi déterminer quelle institution en aura la charge d’une telle mission. Candidates, l’INA et la Bibliothèque Nationale de France ont déjà imaginé des solutions.

Zones interdites

L’archivage de l’Internet vise essentiellement le Web. En aucun cas la messagerie électronique ou les Intranet. La question des forums de discussion n’est toutefois pas tranchée. De plus, « des exceptions pourraient toucher la correspondance électronique personnelle d’un écrivain, comme nous avons conservé les manuscrits de Zola ou Céline, mais sans faire l’objet d’un dépôt légal. », avance Julien Masanès, conservateur chargé du projet d’archivage du Web à la Bibliothèque Nationale de France. D’une manière plus générale, il songe à définir une matrice du Web en terme de popularité, afin, par exemple, de séparer sur un même site perso la partie à vocation publique pointée par d’autres sites et la partie d’informations plus privées non pointée par l’extérieur. Cette utilisation pertinente de la notoriété pourrait reprendre le rôle de filtre de l’édition classique

Quant aux bases de données, il faut déterminer, en collaboration avec leurs producteurs, des moments d’archivage correspondant à des logiques intellectuelles de mise à jour. Et peut-être se prémunir contre l’effet de compilation permis par le numérique. En effet, à partir des données jurisprudentielles, qui comportent des décisions de justice nominatives, chacun peut aujourd’hui, à l’aide des moteurs de recherche, reconstituer le casier judiciaire d’une personne. Alors que son accès est fortement réglementé. C’est pourquoi la CNIL préconise une anonymisation des décisions de justice.

Par rapport aux autres types de documents, la collecte sur Internet comporte une double difficulté : les documents sont souvent modifiés – la moitié des sites « .com » change tous les 11 jours - et le moment de la mise à jour est imprévisible. De plus, les contenus en ligne sont moins délimités que les contenus classiques, car il faut prendre en considération les liens hypertextes. « Afin de permettre un archivage automatique d’Internet par aspiration, nous avons besoin de développer un robot de repérage de l’information sur le Web. D’une part, pour assurer une représentativité large. Mais également pour repérer, et archiver les sites non collectés par les robots – ce qui n’existe pas dans d’autres pays. », précise Julien Masanès. En effet, nos chers et indispensables moteurs, de Google à Alltheweb, ne couvrent ensemble que 40% du Web. D’où la notion de Web invisible, auquel leurs robots de repérage  n’accèdent pas. La barrière est constituée par un mot de passe, par un formulaire à remplir, par un numéro d’identification attribuée en fonction du moment de la visite. Même si, comme pour Yahoo, Voilà et Lycos, la sélection des sites est réalisée complètement ou en partie par des documentalistes.

D’autre part, « Le Web possède une mémoire « sélective », pas toujours objective. On l’a constaté deux jours après les événements du 11 septembre où, en réalisant une recherche sur « twin towers », les documents qui ont émergé n’était pas en rapport avec l’actualité. », explique David Degrelle, PDG de 1ère Position. Pour combler ce manque de réactivité du Web, www.alltheweb.com a mis en ligne depuis mi-novembre un module sur les actualités sollicitant plus de 3000 ressources d’informations sur le Net. N’empêche, le Web n’est pas une authentique bibliothèque. Reste un ultime souci de collecte : l’imposant flux en streaming, dont la livraison des contenus pourrait se réaliser sous forme de fichiers.

----------------------

Cette enquête a été réalisée il y a 6 ans. Il s'agit là de la version originale et intégrale.

Les commentaires sont fermés.

 
Toute l'info avec 20minutes.fr, l'actualité en temps réel Toute l'info avec 20minutes.fr : l'actualité en temps réel | tout le sport : analyses, résultats et matchs en direct
high-tech | arts & stars : toute l'actu people | l'actu en images | La une des lecteurs : votre blog fait l'actu