Avertir le modérateur

19/07/2007

Archivage du Web : Internet entre au Panthéon (2ème et dernière partie)

Le numérique, pas éternel ?

Une fois les données de l’Internet sélectionnées et collectées, il faut pouvoir les conserver à long terme. Ce qui n’est pas une mince affaire avec le numérique, en raison de l’évolution technologique.

D’une part, les outils informatiques ne sont pas pérennes et sont inter-dépendants. Gare à la moindre couche oubliée, du logiciel au micro-ordinateur, en passant par le système d’exploitation ! Il faut donc séparer les données numériques de la présentation qu’elles avaient sur leur support original. En outre, lors de la mise à plat des données et malgré la qualité des descriptions, un jeu vidéo n’a plus la même apparence. Quand on cherche à conserver la forme, l’apparence et le dynamisme – l’interactivité - d’un document comme un jeu vidéo, l’émulation s’avère performante. Cette technique consiste, pour un outil de nouvelle génération, à montrer un document comme il a été produit avec un outil de vieille génération. Tant au niveau de la perception moins affinée des images que de la rapidité de l’application. Dans le futur, l’émulation d’un jeu sur console tel « Checkie Egg » demanderait tout de même 60 heures de travail ! Avec toutefois l’avantage de réutiliser cette émulation pour le même type de console et le même type de logiciel.

D’autre part, comme en atteste le passage de la disquette 5 pouces ¼ au DVD, les supports de conservation changent tous les 5 à 10 ans, soit une échelle de temps brève pour l’archivage. Pour toutes les données numériques, des « migrations » d’un support à l’autre sont régulièrement nécessaires. Or, l’acte est irréversible. Comme l’ont vérifié à leurs dépens les Archives de France, qui conservent depuis 1978 des documents électroniques de l’INSEE et l’INED au Centre des Archives Contemporaines de Fontainebleau. « Lors de la première migration de données en 1996, 1500 fichiers n'ont pu être sauvegardés, car on ne connaissait pas tous les paramètres pour les conserver à long terme. Mais de grands organismes comme la NASA ont également perdu des fichiers.», précise Catherine Dhérent, responsable des technologies de l’information et de la communication aux Archives de France. La méthodologie s’est affinée au fil du temps. Dans le cadre de cette veille technologique permanente, le gouvernement recommande notamment l'usage du logiciel « libre ». Afin de réduire ses dépenses, mais aussi de disposer de tous les éléments pour recréer les outils informatiques d’origine à partir des code source des programmes. Un système propriétaire a ainsi contraint les Archives de France à réaliser une nouvelle migration de données à seulement deux ans d’intervalle. Une dernière solution réside dans la combinaison de plusieurs supports par sécurité. La SNCF préserve la copie des 100 000 plans numériques de chaque rame TGV avec une technique hybride, la Computer Output Microform, permettant de passer du microfilm – durée de vie : un siècle - à la forme numérique et réciproquement.

Grâce au numérique, la mise à disposition des contenus archivés pourrait être facilitée. « Lorsque l’on stocke des données du Web et qu’on les restitue “ off-line ” ou dans le cadre d’un Intranet, on ne lèse pas les droits d’auteurs et d’éditeurs.», indique Emmanuel Hoog, président de l’INA. Mais la diffusion numérique d’archives provenant d’Internet - même communicables – provoque un changement d’échelle considérable. En effet, depuis la loi du 14 avril 2000, les archivistes peuvent demander la conservation de documents essentiels, bien que nominatifs, pour la connaissance à des fins historiques, statistiques et scientifiques. Certes, les délais de communication inscrits dans la loi sur les archives de 1979 sont longs, sans nécessairement possibilité de dérogation, même pour les chercheurs. Mais, « si l’usage du papier limite les recoupements abusifs, il faut toutefois veiller, comme l’incite la CNIL, aux facilités de traitement offertes par le numérique pour les masses importantes de données. Aux Etats-Unis, on commence à assister à des recoupements de bases de données, certaines émanants d’administrations publiques d’autres de sociétés de marketing. », souligne Julien Masanès.

L’interrogation intelligente de cette fabuleuse masse de données numériques, conservées dans des volumes réduits et sans dégradation au fil du temps, possède d’immenses vertus. « On ne s’adresse plus directement à des archives pour les compulser mais à des sciences auxiliaires, une forme de “ mathématique du numérique ”, encore aujourd’hui à l’état embryonnaire. », explique Jean-Michel Rodes, directeur de l’Inathèque de France. « On pourra travailler sur des phénomènes difficilement observables comme la parole. Et ainsi étudier quand apparaît tel mot, dans quel contexte et ainsi mieux cerner son sens. », détaille Bruno Bachimont, directeur scientifique à l’INA. Les recherches porteront également sur l’exploitation de l’hypertexte comme sur la lecture de cette cyberthèque virtuelle…. Avec, qui sait, le port de lunettes spéciales ?

En attendant les décrets d’application de la loi sur le Dépôt Légal d’Internet, sans doute pas en vigueur avant 2003, une longue période de test a commencé. La BNF, parfois en collaboration avec l’INRIA, expérimente la collecte sur une centaine de sites, avec leur accord évidemment. En mettant en avant sa capacité humaine d’analyse sur le plan documentaire. De son côté, l’INA profite de ses études de faisabilité de l’archivage du Web lancées il y a trois ans. Et insiste sur son savoir-faire en matière de traitement de gros volumes numériques, une seconde de télévision numérisée compressée représentant 50 pages HTML. Cette émulation, avec comme enjeu l’attribution d’une prestigieuse mission, ne peut que bénéficier à l’archivage du Web…

Encadrés

1 – Extrait du projet de loi sur Société de l’Information

« Lorsque la collecte automatique ne sera pas possible ou sera difficile pour des raisons techniques, elle pourra aussi s’effectuer selon d’autres modalités qui devront alors être définies par un accord entre les organismes dépositaires et les éditeurs ou producteurs de contenus. Cet accord permettra d’avoir la certitude que le dépôt légal ne fera pas subir de contraintes économiques aux producteurs ou éditeurs de services en ligne.

Dans tous les cas, les personnes soumises au dépôt légal devront être informées des procédures de collecte mises en œuvre. (…)

Compte tenu du caractère parfois sensible des éléments diffusés sur l'Internet, notamment par la présence d'éléments à caractère personnel dont la divulgation, plusieurs années après leur collecte, pourrait porter préjudice à certaines personnes, les modalités de consultation des dépôts ainsi constitués seront fixées par décret en Conseil d'Etat pris après avis de la Commission nationale de l'informatique et des libertés. »

2 – Attention aux trous de mémoire numérique !

En matière de pérennité des documents électroniques, la prise de conscience gouvernementale est récente. Elle date de 1998 avec le Programme d’Action Gouvernementale pour l’entrée de la France dans la Société de l’Information (PAGSI), qui s’intéresse en particulier aux projets de dématérialisation des procédures avec le citoyen ou ceux des actes authentiques (état civil, notaires, etc.). Actuellement, seules les grandes entreprises font appel à des banques de conservation appelées « sociétés de tiers-archiveurs », pour assurer la pérennité de leurs documents électroniques numériques. Cette inexorable dématérialisation promet des trous de mémoire importants si des services identiques ne se développent pas pour le particulier.

Dès à présent, en matière de loisirs et faute d'outils d'archivage corrects, mieux vaut imprimer ses photos numériques pour les retrouver dans dix ou vingt ans. Ou privilégier un format non dégradé et non compressé comme le .TIFF, voire un format compressé mais peu dégradé le .PNG. Pour les textes, le .RTF est recommandé. Le papier n’est pas prêt de disparaître. Pour certains documents de l’État, on exige toujours une conservation sous forme de papier…

----------------------

Cette enquête a été réalisée il y a 6 ans. Il s'agit là de la version originale et intégrale.

18/07/2007

Archivage du Web : Internet entre au Panthéon (1ère partie)

Le futur Dépôt Légal de l’Internet bouleverse les règles de l’archivage classique. En attendant sa mise en application par la loi, l’Institut National de l’Audiovisuel et la Bibliothèque Nationale de France se penchent déjà sur ces nouvelles problématiques d’ordre technique, scientifique et juridique soulevées par l’archivage de l’Internet.


Depuis l’adoption en Conseil des ministres du projet de loi sur la Société de l’Information en juin dernier, le dépôt légal de l’Internet est instauré. Cette décision gouvernementale s’inscrit dans la tradition patrimoniale d’un pays attaché à son passé et à sa mémoire. A l’instar de la télévision, du livre et du cinéma, elle reconnaît aussi Internet comme un média en soi. C’est-à-dire comme un lieu d’information et un reflet de notre société, de ses interrogations et de ses savoirs. Mais, à la différence des médias traditionnels, Internet est ouvert au plus grand nombre en raison de coûts de diffusion réduits et possède un contenu moins filtré que dans la diffusion classique. Si l’analyse de la société va gagner en profondeur et donc en pertinence, tout individu risquera d’accéder, à travers l’archivage de son site, à une postérité pas nécessairement désirée. En outre, cet espace innove en permanence dans ses formats d’expression, notamment au niveau technique. La mission de tout dépôt légal est de conserver un regard fidèle sur les œuvres de notre temps pour les générations futures. Pour s’en acquitter, le (ou les) organisme(s) dépositaire(s) du Dépôt Légal de l’Internet sont appelés à mettre en place des solutions nouvelles pour cet archivage d’un nouveau genre.

Jusqu’à présent, et selon la loi du 20 juin 1992, le dépôt légal s'appliquait déjà aux documents imprimés, graphiques, photographiques, sonores, audiovisuels, multimédias, quel que soit leur procédé technique de fabrication, d'édition ou de diffusion, dès lors qu'ils sont mis à la disposition d'un public. Il concernait également les progiciels, les bases de données, les systèmes experts et les autres produits de l'intelligence artificielle ouverts au public par diffusion sur un support matériel. Tout dépôt légal est organisé afin de permettre la collecte et la conservation des documents de toute nature publiés, produits ou diffusés en France, la constitution et la diffusion de bibliographies nationales ainsi que la consultation des documents, sous réserve des secrets protégés par la loi, dans des conditions conformes à la législation sur la propriété intellectuelle et compatibles avec leur conservation. Depuis le décret d’application du 31 décembre 1993, les organismes dépositaires sont la Bibliothèque Nationale de France, le Centre National de la Cinématographie, l’Institut National de l’Audiovisuel… et le Ministère de l’Intérieur. Jusqu’à maintenant, les documents à conserver étaient remis en mains propres ou adressés aux organismes dépositaires. En raison de la spécificité d’Internet, une modalité particulière de dépôt est d’ores et déjà prévue : « l’aspiration » des contenus. Un modèle déjà existant. L’INA pratique l’archivage à caractère systématique des six chaînes hertziennes en 1995 et d’une dizaine de chaînes du Câble et du satellite seulement depuis janvier 2002. Les éditeurs de service en ligne ne seront donc pas astreints, au titre du dépôt légal, à la moindre démarche active. En revanche, ils ne devront pas s’opposer aux collectes réalisées par les organismes dépositaires.

Contrairement à une idée reçue, archiver Internet n’est pas mission impossible en terme de taille. « Aujourd’hui, le Web mondial, en termes de caractères, représente quelques dizaines de téraoctets. Il tient dans une petite pièce de quelques mètres de côté remplie de quelques dizaines d’ordinateurs. », affirme Dominique Pignon, directeur du projet  « toute la mémoire du monde » Ecole Normale Supérieure / INA sur l’expérimentation du dépôt légal du Web francophone. Pas de crainte non plus quant à la volatilité du Web, dont 70% des pages possèdent une durée de vie inférieure à quatre mois. Il suffit de remettre les chiffres dans leur contexte. « La production littéraire française de chaque année tient sur un disque dur de n’importe quel micro-ordinateur contemporain. Chaque année, les écrits véritablement nouveaux de l’ensemble du monde représentent un demi téraoctet de caractères. Les images, et a fortiori les images vidéo, font entrer dans d’autre ordre de grandeur. Les caractères de 2 bouquins tiennent dans 1 Mo… soit aussi la taille d’une photographie grand public en version compressée. », reprend Dominique Pignon. La production pléthorique de documents sur papier, longue à interroger manuellement, apparaît plus démesurée. Pour exemple, 107 kilomètres de rayonnage sont enregistrés chaque année aux Archives de France.

Mais revenons à nos moutons numériques, source de multiples problématiques. Pour l’archivage de l’Internet, il faut définir quelles parties de l’espace virtuel sélectionner, comment organiser leur collecte et leur conservation, dans quel cadre juridique… mais aussi déterminer quelle institution en aura la charge d’une telle mission. Candidates, l’INA et la Bibliothèque Nationale de France ont déjà imaginé des solutions.

Zones interdites

L’archivage de l’Internet vise essentiellement le Web. En aucun cas la messagerie électronique ou les Intranet. La question des forums de discussion n’est toutefois pas tranchée. De plus, « des exceptions pourraient toucher la correspondance électronique personnelle d’un écrivain, comme nous avons conservé les manuscrits de Zola ou Céline, mais sans faire l’objet d’un dépôt légal. », avance Julien Masanès, conservateur chargé du projet d’archivage du Web à la Bibliothèque Nationale de France. D’une manière plus générale, il songe à définir une matrice du Web en terme de popularité, afin, par exemple, de séparer sur un même site perso la partie à vocation publique pointée par d’autres sites et la partie d’informations plus privées non pointée par l’extérieur. Cette utilisation pertinente de la notoriété pourrait reprendre le rôle de filtre de l’édition classique

Quant aux bases de données, il faut déterminer, en collaboration avec leurs producteurs, des moments d’archivage correspondant à des logiques intellectuelles de mise à jour. Et peut-être se prémunir contre l’effet de compilation permis par le numérique. En effet, à partir des données jurisprudentielles, qui comportent des décisions de justice nominatives, chacun peut aujourd’hui, à l’aide des moteurs de recherche, reconstituer le casier judiciaire d’une personne. Alors que son accès est fortement réglementé. C’est pourquoi la CNIL préconise une anonymisation des décisions de justice.

Par rapport aux autres types de documents, la collecte sur Internet comporte une double difficulté : les documents sont souvent modifiés – la moitié des sites « .com » change tous les 11 jours - et le moment de la mise à jour est imprévisible. De plus, les contenus en ligne sont moins délimités que les contenus classiques, car il faut prendre en considération les liens hypertextes. « Afin de permettre un archivage automatique d’Internet par aspiration, nous avons besoin de développer un robot de repérage de l’information sur le Web. D’une part, pour assurer une représentativité large. Mais également pour repérer, et archiver les sites non collectés par les robots – ce qui n’existe pas dans d’autres pays. », précise Julien Masanès. En effet, nos chers et indispensables moteurs, de Google à Alltheweb, ne couvrent ensemble que 40% du Web. D’où la notion de Web invisible, auquel leurs robots de repérage  n’accèdent pas. La barrière est constituée par un mot de passe, par un formulaire à remplir, par un numéro d’identification attribuée en fonction du moment de la visite. Même si, comme pour Yahoo, Voilà et Lycos, la sélection des sites est réalisée complètement ou en partie par des documentalistes.

D’autre part, « Le Web possède une mémoire « sélective », pas toujours objective. On l’a constaté deux jours après les événements du 11 septembre où, en réalisant une recherche sur « twin towers », les documents qui ont émergé n’était pas en rapport avec l’actualité. », explique David Degrelle, PDG de 1ère Position. Pour combler ce manque de réactivité du Web, www.alltheweb.com a mis en ligne depuis mi-novembre un module sur les actualités sollicitant plus de 3000 ressources d’informations sur le Net. N’empêche, le Web n’est pas une authentique bibliothèque. Reste un ultime souci de collecte : l’imposant flux en streaming, dont la livraison des contenus pourrait se réaliser sous forme de fichiers.

----------------------

Cette enquête a été réalisée il y a 6 ans. Il s'agit là de la version originale et intégrale.

15/07/2007

Peines et joies du High-tech, titre de transport dématérialisé, Linux, Napster, vote électronique : réflexions d'ancienne revue de presse

A quand la téléportation ?

Le dernier billet d’avion sera imprimé en 2007. La généralisation du titre de transport électronique a été décidée par 700 dirigeants de compagnies aériennes réunis à Singapour en juin dernier. Exit également les pistes magnétiques des cartes d’embarquement remplacées par des codes-barres imprimés par les passagers depuis leur domicile. La dématérialisation dans le transport aérien a été engagée depuis des lustres par le service de repas virtuels.

Lutte contre l’obésité américaine

Il n’y a pas que Microsoft dans la vie. Renaud Dutreil, ministre de la Fonction Publique, a déclaré que le gouvernement français désirait diviser par deux le coût des logiciels utilisés par l’Etat en s’adressant à des éditeurs de « logiciels libres » (entendez : « libres de droit », développés et mis à jour par « l’ensemble de la communauté informatique » selon le célèbre modèle de Linux) plutôt qu’au géant américain, qui détient 95% du marché. Pour les 900 000 postes informatiques de fonctionnaires dont la licence est à renouveler dans les trois prochaines années, l’enjeu financier s’élève à 300 millions d’euros pour les seuls logiciels de bureautique. Il pourrait historiquement s’agir en France de la première prise de liberté des fonctionnaires qui rapporte à l’Etat. 

Frasque food

En juillet et en août, pour tout achat d’un menu « Big Mac » de Mac Donald, vous avez reçu, comme en Allemagne et en Grande-Bretagne, un code d’accès pour télécharger gratuitement une chanson sur le site de vente en ligne Connect de Sony. Décidemment, il demeure impossible de finir un Big Mac sans s’en mettre partout, jusqu’aux oreilles.

De mâle en pi… xel

Les petits garçons américains préfèrent tourmenter leurs jeux vidéos que mettre au supplice leurs jouets traditionnels, selon une étude réalisée aux Etats-Unis auprès de 2809 adultes avec enfants âgés de 5 à 12 ans par l’institut NPD Group. Seules les petites filles accordent sagement autant de temps aux mondes virtuels qu’à la poupée Barbie, toujours première dans leur cœur. Si 1 enfant sur 5 s’est pris les mains dans les manettes avant l’âge de 3 ans, la plupart ont commencé la consommation de jeux vidéos à 5 ans. A ce rythme, la dernière niche potentielle pour les fabricants de console, le marché des embryons, sera bientôt saturée. 

Vote électronique

Au milieu de l’été, l’éditeur Ubi Soft a renouvelé le jeu de baston en lançant un jeu de simulation de l’élection présidentielle américaine, opposant le tenant du titre, George W. Bush (2 guerres, 1 combat, 0 victoire à la régulière) à son challenger, John Kerry (0 guerre, 0 combat, des origines françaises). Dans « The Political Machine » (la machine politique) destiné aux utilisateurs de PC, l’accession au poste de Président se disputera à l’ancienne autour de levée de fonds, de discours enflammés et de débats publics. Et à la loyale en Floride.

On rase gratis, pour un euro symbolique

Depuis septembre, les étudiants peuvent acquérir un ordinateur portable à crédit « pour un euro par jour », c’est-à-dire le coût d’un café au comptoir, a annoncé François Fillon, le ministre de l’Education. Ce partenariat entre l’Etat, les constructeurs, les éditeurs de logiciels, les banques et les universités, cherche à réduire la « fracture numérique ». Ne seraient-ce pas, une fois encore, les cafétiers-buralistes qui trinquent ? 

« Faille »-wall

Les plus grandes entreprises britanniques ont été victimes de pirates, virus informatiques et autres intrusions sur leurs réseaux au rythme d’un incident par semaine au cours de l’année 2003. Toujours selon le rapport annuel du département du Commerce et de l’Industrie du Royaume-Uni, la faute n’est pas à une loi sur le cybercrime vieille de 14 ans mais à des sociétés qui investissent insuffisamment en matière de sécurité informatique. Le plus grave incident a coûté environ 120 000 livres sterling. Les Anglais ont raison de refuser l’Euro, ça rend la vie moins affolante à comprendre.

Le meilleur des mondes

Lors de la prochaine Exposition Universelle prévue en mars 2005 à Aichi (Japon), Toyota a choisi de montrer un futur écologique et sans accidents. Dans un pavillon haut de 30 mètres, construit en papier recyclé et fibre de roseau, et éclairé grâce à des éoliennes, le deuxième constructeur automobile mondial exposera en particulier ses bus propulsés par une pile à hydrogène, ne rejetant que de l’eau et déjà en fonctionnement à Tokyo depuis août dernier. Dans un proche avenir, ces moyens de transport pourraient fonctionner de manière automatisée avec un système d’intelligence artificielle évitant les collisions… Une idée déjà proposée par General Motors à l’Exposition Universelle de New York en 1939 dans le cadre du spectacle « Futurama », promettant une vie quotidienne en 1960 tout auto entre gratte-ciel et autoroutes à sept voies. La multinationale américaine investit aujourd’hui des milliards de dollars pour commercialiser les premiers véhicules totalement non polluants dès 2010. Si l’auto passe au vert, demain j’arrête le rouge. 

Microsoft innove

Le numéro un mondial des logiciels a déposé un brevet concernant le lancement d’application par un clic, voire un double-clic, sur un même bouton pour les ordinateurs de poche utilisant le logiciel PocketPC de Microsoft.. « Si quelqu’un pense que le brevet n’est pas nouveau ou que la fonction est évidente, il peut nous en envoyer la preuve. », a commenté le porte-parole du bureau américain des brevets et marques déposés. Il semblerait qu’une grève mondiale des postes ait actuellement lieu sans que l’on s’en soit aperçu.

La génération Napster contre la guerre

La censure est incapable d’enrailler l’assaut donné au secret militaire par les appareils photos numériques, téléphones mobiles, ordinateurs portables et connexions internet sans fil. Ce redoutable arsenal est en effet utilisé par les troupes stationnées en Irak pour communiquer avec leurs proches par courrier électronique ou pour tenir des journaux intimes sur le Web. Seule condition imposée par les états-majors aux G.I : ne pas divulguer leur position exacte, ni leur ordre de mission. Les fichiers échangés entre soldats et civils sur le terrain ont fini par échouer entre les mains des journalistes. Résultat : les photos prises dans l’enceinte de la prison d’Abou Ghraïb ont bouleversé le peuple américain avec la même virulence que les premières images de la guerre du Vietnam, conflit qui a donné naissance à ce dicton : « On ne gagne pas une guerre sans le soutien de l’opinion publique ». Le pire est peut-être à venir, selon Donald (Rumsfeld). Les téléphones de troisième génération pourront permettre aux troufions de base d’envoyer en direct des instantanés de combat. Pour vivre la réception d’un missile en pleine poire comme si vous étiez ?

Basse technologie

La nostalgie des vieux jouets continue de transporter. Barry Jones, un pilote d’hélicoptères de l’armée britannique, a décollé de Londres le 26 avril 2004 pour une tentative inédite de tour de monde en autogyre, l’un des derniers records à faire tomber dans l’aéronautique. Inventé dans les années 20, l’autogyre se distingue de l’hélicoptère par un cockpit ouvert et une capacité à pouvoir planer en cas de panne du propulseur. Ce périple programmé sur trois mois et demi, amenant le pilote à affronter vents et marées de mouches par des températures comprises entre +50 et -50 degrés Celsius, a été décidé après une conversation dans un bar du Yorkshire. L’abus de paroles n’est pas recommandé pour la santé.

-------------------------

Cette revue de presse est parue dans un magazine sur les nouvelles technologies (aujourd'hui disparu) durant l'été 2004 

 
Toute l'info avec 20minutes.fr, l'actualité en temps réel Toute l'info avec 20minutes.fr : l'actualité en temps réel | tout le sport : analyses, résultats et matchs en direct
high-tech | arts & stars : toute l'actu people | l'actu en images | La une des lecteurs : votre blog fait l'actu