Avertir le modérateur

19/07/2007

Archivage du Web : Internet entre au Panthéon (2ème et dernière partie)

Le numérique, pas éternel ?

Une fois les données de l’Internet sélectionnées et collectées, il faut pouvoir les conserver à long terme. Ce qui n’est pas une mince affaire avec le numérique, en raison de l’évolution technologique.

D’une part, les outils informatiques ne sont pas pérennes et sont inter-dépendants. Gare à la moindre couche oubliée, du logiciel au micro-ordinateur, en passant par le système d’exploitation ! Il faut donc séparer les données numériques de la présentation qu’elles avaient sur leur support original. En outre, lors de la mise à plat des données et malgré la qualité des descriptions, un jeu vidéo n’a plus la même apparence. Quand on cherche à conserver la forme, l’apparence et le dynamisme – l’interactivité - d’un document comme un jeu vidéo, l’émulation s’avère performante. Cette technique consiste, pour un outil de nouvelle génération, à montrer un document comme il a été produit avec un outil de vieille génération. Tant au niveau de la perception moins affinée des images que de la rapidité de l’application. Dans le futur, l’émulation d’un jeu sur console tel « Checkie Egg » demanderait tout de même 60 heures de travail ! Avec toutefois l’avantage de réutiliser cette émulation pour le même type de console et le même type de logiciel.

D’autre part, comme en atteste le passage de la disquette 5 pouces ¼ au DVD, les supports de conservation changent tous les 5 à 10 ans, soit une échelle de temps brève pour l’archivage. Pour toutes les données numériques, des « migrations » d’un support à l’autre sont régulièrement nécessaires. Or, l’acte est irréversible. Comme l’ont vérifié à leurs dépens les Archives de France, qui conservent depuis 1978 des documents électroniques de l’INSEE et l’INED au Centre des Archives Contemporaines de Fontainebleau. « Lors de la première migration de données en 1996, 1500 fichiers n'ont pu être sauvegardés, car on ne connaissait pas tous les paramètres pour les conserver à long terme. Mais de grands organismes comme la NASA ont également perdu des fichiers.», précise Catherine Dhérent, responsable des technologies de l’information et de la communication aux Archives de France. La méthodologie s’est affinée au fil du temps. Dans le cadre de cette veille technologique permanente, le gouvernement recommande notamment l'usage du logiciel « libre ». Afin de réduire ses dépenses, mais aussi de disposer de tous les éléments pour recréer les outils informatiques d’origine à partir des code source des programmes. Un système propriétaire a ainsi contraint les Archives de France à réaliser une nouvelle migration de données à seulement deux ans d’intervalle. Une dernière solution réside dans la combinaison de plusieurs supports par sécurité. La SNCF préserve la copie des 100 000 plans numériques de chaque rame TGV avec une technique hybride, la Computer Output Microform, permettant de passer du microfilm – durée de vie : un siècle - à la forme numérique et réciproquement.

Grâce au numérique, la mise à disposition des contenus archivés pourrait être facilitée. « Lorsque l’on stocke des données du Web et qu’on les restitue “ off-line ” ou dans le cadre d’un Intranet, on ne lèse pas les droits d’auteurs et d’éditeurs.», indique Emmanuel Hoog, président de l’INA. Mais la diffusion numérique d’archives provenant d’Internet - même communicables – provoque un changement d’échelle considérable. En effet, depuis la loi du 14 avril 2000, les archivistes peuvent demander la conservation de documents essentiels, bien que nominatifs, pour la connaissance à des fins historiques, statistiques et scientifiques. Certes, les délais de communication inscrits dans la loi sur les archives de 1979 sont longs, sans nécessairement possibilité de dérogation, même pour les chercheurs. Mais, « si l’usage du papier limite les recoupements abusifs, il faut toutefois veiller, comme l’incite la CNIL, aux facilités de traitement offertes par le numérique pour les masses importantes de données. Aux Etats-Unis, on commence à assister à des recoupements de bases de données, certaines émanants d’administrations publiques d’autres de sociétés de marketing. », souligne Julien Masanès.

L’interrogation intelligente de cette fabuleuse masse de données numériques, conservées dans des volumes réduits et sans dégradation au fil du temps, possède d’immenses vertus. « On ne s’adresse plus directement à des archives pour les compulser mais à des sciences auxiliaires, une forme de “ mathématique du numérique ”, encore aujourd’hui à l’état embryonnaire. », explique Jean-Michel Rodes, directeur de l’Inathèque de France. « On pourra travailler sur des phénomènes difficilement observables comme la parole. Et ainsi étudier quand apparaît tel mot, dans quel contexte et ainsi mieux cerner son sens. », détaille Bruno Bachimont, directeur scientifique à l’INA. Les recherches porteront également sur l’exploitation de l’hypertexte comme sur la lecture de cette cyberthèque virtuelle…. Avec, qui sait, le port de lunettes spéciales ?

En attendant les décrets d’application de la loi sur le Dépôt Légal d’Internet, sans doute pas en vigueur avant 2003, une longue période de test a commencé. La BNF, parfois en collaboration avec l’INRIA, expérimente la collecte sur une centaine de sites, avec leur accord évidemment. En mettant en avant sa capacité humaine d’analyse sur le plan documentaire. De son côté, l’INA profite de ses études de faisabilité de l’archivage du Web lancées il y a trois ans. Et insiste sur son savoir-faire en matière de traitement de gros volumes numériques, une seconde de télévision numérisée compressée représentant 50 pages HTML. Cette émulation, avec comme enjeu l’attribution d’une prestigieuse mission, ne peut que bénéficier à l’archivage du Web…

Encadrés

1 – Extrait du projet de loi sur Société de l’Information

« Lorsque la collecte automatique ne sera pas possible ou sera difficile pour des raisons techniques, elle pourra aussi s’effectuer selon d’autres modalités qui devront alors être définies par un accord entre les organismes dépositaires et les éditeurs ou producteurs de contenus. Cet accord permettra d’avoir la certitude que le dépôt légal ne fera pas subir de contraintes économiques aux producteurs ou éditeurs de services en ligne.

Dans tous les cas, les personnes soumises au dépôt légal devront être informées des procédures de collecte mises en œuvre. (…)

Compte tenu du caractère parfois sensible des éléments diffusés sur l'Internet, notamment par la présence d'éléments à caractère personnel dont la divulgation, plusieurs années après leur collecte, pourrait porter préjudice à certaines personnes, les modalités de consultation des dépôts ainsi constitués seront fixées par décret en Conseil d'Etat pris après avis de la Commission nationale de l'informatique et des libertés. »

2 – Attention aux trous de mémoire numérique !

En matière de pérennité des documents électroniques, la prise de conscience gouvernementale est récente. Elle date de 1998 avec le Programme d’Action Gouvernementale pour l’entrée de la France dans la Société de l’Information (PAGSI), qui s’intéresse en particulier aux projets de dématérialisation des procédures avec le citoyen ou ceux des actes authentiques (état civil, notaires, etc.). Actuellement, seules les grandes entreprises font appel à des banques de conservation appelées « sociétés de tiers-archiveurs », pour assurer la pérennité de leurs documents électroniques numériques. Cette inexorable dématérialisation promet des trous de mémoire importants si des services identiques ne se développent pas pour le particulier.

Dès à présent, en matière de loisirs et faute d'outils d'archivage corrects, mieux vaut imprimer ses photos numériques pour les retrouver dans dix ou vingt ans. Ou privilégier un format non dégradé et non compressé comme le .TIFF, voire un format compressé mais peu dégradé le .PNG. Pour les textes, le .RTF est recommandé. Le papier n’est pas prêt de disparaître. Pour certains documents de l’État, on exige toujours une conservation sous forme de papier…

----------------------

Cette enquête a été réalisée il y a 6 ans. Il s'agit là de la version originale et intégrale.

Les commentaires sont fermés.

 
Toute l'info avec 20minutes.fr, l'actualité en temps réel Toute l'info avec 20minutes.fr : l'actualité en temps réel | tout le sport : analyses, résultats et matchs en direct
high-tech | arts & stars : toute l'actu people | l'actu en images | La une des lecteurs : votre blog fait l'actu