Avertir le modérateur

20/07/2007

Cybersurveillance au travail (1ère partie)

Décidé à changer d’existence, Paul L. se présente à un recrutement de commerciaux pour une multinationale. Dès ses premiers pas dans l’entreprise de ses rêves, le logiciel de biométrie Kiétu a déterminé son profil psychologique. A partir du contour de son visage ou de ses expressions corporelles, mais aussi de l’analyse de sa voix  réussie à travers un simple “ Bonjour ! ” et de la lecture de son génome grâce à l’ADN prélevée dans un postillon échappé sur la vitre d’entrée. Comme Kiétu met tous ces détails en relation avec les consultations personnelles de sites de Paul, collectées dans le fichier de clients lors de la faillite de son fournisseur d’accès, la réponse est instantanée : Paul ne possède pas les atouts d’un vendeur. Et sans plus de preuves scientifiques que pour la graphologie, Paul L. sera remercié avant même le moindre entretien.

Bas les traces, vous êtes fait !

Pure fiction, l’aventure de Paul ? Sans doute, car la réglementation en vigueur protège remarquablement le salarié. “ La cybersurveillance au travail ne résulte pas tant d’une volonté délibérée de constituer des fichiers ”, déclare Ariane Mole, avocate au cabinet Bensoussan, “ mais d’un inéluctable traçage informatique, identique à celui opéré avec les cartes bancaires et dont pourtant l’ensemble de la population se soucie moins. ” Ou de la possible localisation de chacun au mètre près avec son téléphone portable. “ Quelqu’un peut savoir sur vous ce que vous ne savez pas qu’il sait et qu’il vous opposera lorsque vous serez vulnérable. A l’époque des gros systèmes informatiques, il fallait décider de “ ficher ” quelqu’un. Aujourd’hui, chacun se fiche lui-même ” précise Hubert Bouchet, vice-président délégué à la Commission Nationale Informatique et Libertés. En effet, si la technique informatique se nourrit depuis toujours de traces pour mettre au point des programmes ou réparer des problèmes, les salariés abandonnent aujourd’hui l’intégralité de leur emploi du temps sur leurs machines… au moins à quatre endroits : leur micro-ordinateur, le serveur de leur département, le serveur de leur entreprise et le fournisseur d’accès à Internet. “ A chaque niveau, de l’analyse du flux de données à la lecture sémantique d’un e-mail, en passant par le décodage “ langage machine ”, ces empreintes numériques sont exploitées par différents outils. ”, rappelle Jean-Paul Macker, chargé de mission auprès de la Direction de l’Expertise Informatique et des Contrôles de la CNIL. Outils standards ou aisément développés par l’équipe informatique de l’entreprise. “ L’informatique n’a rien de virtuel, elle est écrite sur les disques durs ! Même l’effacement “ physique ” d’un disque dur n’est pas toujours suffisant, il faut quelquefois l’effacer au moins sept fois pour en empêcher la lecture au niveau magnétique par rémanence de l’information physique. ” Comme les internautes n’exploitent pas pleinement les divers outils destinés à protéger leur anonymat, chacun laisse sur Internet plus de traces que sur n’importe quel autre vecteur de son existence, comme la consultation de la radio. Pourtant, “ il existe dans l’opinion publique une non-perception absolue de ces multiples traces laissées. On l’a notamment constaté lors du débat sur les cookies, où il est apparu que peu de gens refusent le dépôt de ces espions sur leur micro-ordinateur. ” souligne Alain Weber, avocat et membre de la Ligue des Droits de l’Homme, avant d’ajouter : “ Il existe une telle facilitation de la vie sur Internet au regard d’une contrepartie jugée infime – l’abandon d’informations personnelles - que le grand public ne songe pas à défendre ses propres trésors de confidentialité. Pis, certains professionnels agissent de même. Des décisions de justice comme des données de la Carte Vitale transitent par Internet sans être cryptées. ” Sans paranoïa, ni naïveté, il ne faut pas être dupe de l’exploitation possible de ces entrepôts gigantesques d’informations personnelles. L’un des amendements de la loi “ sécurité quotidienne ” adoptée le 31 octobre dernier impose la conservation des données techniques durant un an par les fournisseurs d'accès à Internet. “ Certes, il ne concerne pas directement le contenu d'un e-mail, ni le contenu d'un site visité. ”, explique Meryem Marzouki, présidente de l'IRIS (Imaginons un Réseau Internet Solidaire). “ En revanche, on peut savoir qui écrit des e-mails à qui, ce qui porte déjà atteinte au secret professionnel dû par les médecins ou les avocats. D'autre part, on peut déterminer le contenu d'un site visité par vérification a posteriori avec l'adresse URL. Les usages d'une personne sur Internet sont signifiants de ses centres d'intérêt et des composantes de son intimité. ” Si une personne consulte régulièrement des sites contenant des informations sur le Sida, cette information peut intéresser à mauvais escient une compagnie d'assurances ou son propre employeur. Attention également à l’interprétation des données enregistrées : “ On ne peut être suspecté d'actes répréhensibles si l'on s'intéresse à un sujet répréhensible. ”, reprend Meryem Marzouki. “ On peut consulter des sites négationnistes sans adhérer à leurs thèses, mais simplement pour se renseigner sur comment en arrive-t-on à faire l'apologie de la haine raciale. C'est l'exhibition des thèses extrémistes qui est interdite par la loi. ” Dans l’ancien modèle de surveillance en entreprise, le contremaître qui remarquait une maladresse ou une sottise chez un ouvrier disposait d’une marge d’appréciation pour le mettre en garde contre ses erreurs. “ Le risque des nouvelles technologies est de supprimer le dialogue entre employés et patron. Voire de permettre une lente désincarnation des relations entre les hommes. ”, met en évidence Hubert Bouchet. “ Le salarié agit sous le regard d’un œilleton virtuel, toujours en éveil et qui moissonne à l’aveugle. Il faut défendre le droit à l’opacité et à la protection de son intimité. Comme les plantes et les animaux ont          besoin à la fois du jour et de la nuit pour s’épanouir, chacun doit pouvoir bénéficier en alternance de l’ombre et de la lumière. Or, ces nouvelles techniques mettent l’être humain en permanence à la lumière. ” Bref, comme le résume Alain Weber : “ Défendre son droit à l’anonymat doit devenir un réflexe de citoyen. ”

Les trois devoirs de l’employeur

Techniquement, un administrateur de réseau informatique peut connaître vérifier les connexions ou le temps d’activité sur son micro-ordinateur d’un salarié à son insu. Voire même le nombre de touches de clavier frappées en une journée. Mais les employés doivent être informés des dispositifs susceptibles de les surveiller, même s’ils ne sont pas mis en place à des fins de contrôle. “ En matière de cybersurveillance, il existe un encadrement juridique très strict pour l’employeur. A tel point que la CNIL ne demande pas plus de législation ou d’obligations pour les chefs d’entreprise dans ce domaine, mais appelle à la négociation.  ”, développe Ariane Mole. “ Conformément à la loi Informatique et Libertés du 6 janvier 1978 et au Code du Travail, aucun enregistrement sur le lieu de travail ne peut être effectué à l’insu d’un salarié. Un employeur est en ce sens soumis à trois obligations. Premièrement, il est obligé de déclarer préalablement à la CNIL tous les outils ainsi que les modalités d’une cybersurveillance. Le dossier a déposé à la CNIL constitue la marge de manœuvre de l’entreprise. Si bien que l’employeur est passible d’une sanction pénale s’il a utilisé des outils pour effectuer un contrôle de ses salariés sans les avoir préalablement déclarés à cette fin. Deuxièmement, il est obligé de consulter le Comité d’Entreprise à propos de cette cybersurveillance. Attention, consulter le Comité d’Entreprise ne le dispense pas de sa troisième obligation : l’information aux salariés. Toute sanction prise à l’égard d’un salarié - de l’avertissement au licenciement - sur le fondement d’un enregistrement si l’une de ces trois conditions n’a pas été respectée conduit à son annulation par les tribunaux, car la preuve est illégitime. J’insiste, auprès des employeurs sur le fait qu’ils sont tenus par la loi Informatique et Libertés, d’informer tout salarié sur son droit d’accès aux données recueillies sur sa personne. ” Ce droit d’accès et de rectification aux informations personnelles n’est d’ailleurs pas propre au monde du travail. Il appartient également à tout citoyen ou consommateur vis à vis de toute entreprise ou administration. “ De plus, il faut respecter le droit à l’oubli, principe selon lequel les données ne doivent pas être conservées en informatique ad vitam eternam ”, conclut Ariane Mole.

Tout salarié n’est pas pour autant autorisé à flâner sur Internet. Ou encore à recevoir des e-mails en toute impunité, comme on l’a parfois conclu de l’arrêt Nikon du 2 octobre 2001, qui a étendu le secret des correspondances aux courriers électronique. “ L’arrêt Nikon ne concernait pas directement la messagerie électronique, mais un fichier étiqueté comme “ personnel ” par le salarié et contenant des correspondances personnelles. Cet arrêt n’indique pas qu’un employeur n’a pas le droit d’interdire des e-mails personnels, ou que l’employeur ne peut pas contrôler la productivité et la qualité du travail et sanctionner les abus. ” rappelle Ariane Mole. “ Par exemple, on peut sanctionner un salarié qui, durant ses heures de travail, envoie et réceptionne des e-mails perso au lieu de se consacrer à l'activité professionnelle pour laquelle il est payé. ”, confirme Olivier Teulières, responsable de www.mondedutravail.com, site consacrée à l'information juridique du monde du travail. La bonne marche de l'entreprise peut être perturbée d’autres façons significatives. “ L’objectif d’une entreprise demeure de protéger son savoir-faire. Internet innove au niveau de la rapidité et de la plus grande facilité à cacher les actes commis. D’où la nécessité de contrôler les mouvements dans une entreprise. ”, mentionne Maître Jean-Paul Ravalec, avocat depuis 35 ans et fondateur du site www.avocats-conseil.com. “ Internet est à la fois un outil de travail et de divertissement. Et un outil discret. Qui permet, par exemple, de chatter avec ses amis sans en avoir l’air. L’équilibre entre patron et employés ne sera pas simple à trouver, compte tenu de la souplesse d’utilisation d’Internet. Mais ce n’est pas parce que le média a changé que l’éducation doit disparaître. ”, argumente Laurent Krivine, ancien rédacteur en chef de TF1 passé à la direction d’entreprises, dont le guide en ligne touristique www.totunisia.com. “ Il faut distinguer deux surveillances : la surveillance de l’activité, destinée à éviter le “ vol du temps ”, et la surveillance du contenu des messages ou des échanges des salariés. ”, explique Yves Lasfargue, fondateur de l’Observatoire des conditions de travail et de l’ergostressie. “ Parfois dans certains secteurs, cette surveillance des communications existent avec des systèmes de caméra ou de magnétophone dans un but de sécurité (agence bancaire), de suivi des contrats (agences de bourse) ou d’apprentissage - formation afin d’améliorer le contact avec la clientèle (centres d’appels téléphoniques). ” Toute restriction aux libertés individuelles et collectives doit cependant être justifiée. “ Les commissaires de la CNIL statuent en fonction du besoin de sécurité nécessaire à l’intérieur d’une entreprise, les notions de “ pertinence ” et de proportionnalité associées à celle de la “ finalité ” étant au cœur de la Loi Informatique et Liberté . Un collège de Nice a par exemple voulu mettre en œuvre un accès à la cantine par reconnaissance des empreintes digitales. Dans ce cas, la demande était disproportionnée par rapport aux besoins ! ” La méthode de cybersurveillance la plus commode et efficace en entreprise demeure l’utilisation de logiciels de recherche de mots-clés dans les messages électroniques (cf. encadré 1). Gare aux bla-bla de comptoirs qui se figent dans le marbre numérique. “ Avec Internet, les gens écrivent des choses qu’ils n’auraient vraisemblablement pas écrit en d’autres circonstances, en raison de la familiarité avec la correspondance électronique. ”, dit Ariane Mole. “ Dans les débats actuels, on focalise sur la surveillance du contenu des données alors que le véritable enjeu se situe autour du flux de données et des informations fournies par l’analyse de ces flux de données telle le volume ou les adresses des destinataires et des émetteurs. ” reprend Yves Lasfargue. “ Par exemple, France Télécom a signé un accord permettant aux organisations syndicales de l’entreprise de publier des sites distincts regroupés sur un intranet syndical unique. Mais l’entreprise, comme pour tous les autres sites Intranet techniques ou commerciaux, affiche le nombre d’accès à cet Intranet syndical : 5000 connexions par mois  pour 120 000 salariés. De quoi permettre à chacun de mesurer le pouvoir d’attraction des syndicats au sein de l’entreprise… Alors que personne ne se serait amuser à compter les personnes qui s’arrêtent devant le tableau réservé aux syndicats. ”

(à suivre...) 

----------------------

Cette enquête a été réalisée il y a 6 ans. Il s'agit là de la version originale et intégrale.

19/07/2007

Archivage du Web : Internet entre au Panthéon (2ème et dernière partie)

Le numérique, pas éternel ?

Une fois les données de l’Internet sélectionnées et collectées, il faut pouvoir les conserver à long terme. Ce qui n’est pas une mince affaire avec le numérique, en raison de l’évolution technologique.

D’une part, les outils informatiques ne sont pas pérennes et sont inter-dépendants. Gare à la moindre couche oubliée, du logiciel au micro-ordinateur, en passant par le système d’exploitation ! Il faut donc séparer les données numériques de la présentation qu’elles avaient sur leur support original. En outre, lors de la mise à plat des données et malgré la qualité des descriptions, un jeu vidéo n’a plus la même apparence. Quand on cherche à conserver la forme, l’apparence et le dynamisme – l’interactivité - d’un document comme un jeu vidéo, l’émulation s’avère performante. Cette technique consiste, pour un outil de nouvelle génération, à montrer un document comme il a été produit avec un outil de vieille génération. Tant au niveau de la perception moins affinée des images que de la rapidité de l’application. Dans le futur, l’émulation d’un jeu sur console tel « Checkie Egg » demanderait tout de même 60 heures de travail ! Avec toutefois l’avantage de réutiliser cette émulation pour le même type de console et le même type de logiciel.

D’autre part, comme en atteste le passage de la disquette 5 pouces ¼ au DVD, les supports de conservation changent tous les 5 à 10 ans, soit une échelle de temps brève pour l’archivage. Pour toutes les données numériques, des « migrations » d’un support à l’autre sont régulièrement nécessaires. Or, l’acte est irréversible. Comme l’ont vérifié à leurs dépens les Archives de France, qui conservent depuis 1978 des documents électroniques de l’INSEE et l’INED au Centre des Archives Contemporaines de Fontainebleau. « Lors de la première migration de données en 1996, 1500 fichiers n'ont pu être sauvegardés, car on ne connaissait pas tous les paramètres pour les conserver à long terme. Mais de grands organismes comme la NASA ont également perdu des fichiers.», précise Catherine Dhérent, responsable des technologies de l’information et de la communication aux Archives de France. La méthodologie s’est affinée au fil du temps. Dans le cadre de cette veille technologique permanente, le gouvernement recommande notamment l'usage du logiciel « libre ». Afin de réduire ses dépenses, mais aussi de disposer de tous les éléments pour recréer les outils informatiques d’origine à partir des code source des programmes. Un système propriétaire a ainsi contraint les Archives de France à réaliser une nouvelle migration de données à seulement deux ans d’intervalle. Une dernière solution réside dans la combinaison de plusieurs supports par sécurité. La SNCF préserve la copie des 100 000 plans numériques de chaque rame TGV avec une technique hybride, la Computer Output Microform, permettant de passer du microfilm – durée de vie : un siècle - à la forme numérique et réciproquement.

Grâce au numérique, la mise à disposition des contenus archivés pourrait être facilitée. « Lorsque l’on stocke des données du Web et qu’on les restitue “ off-line ” ou dans le cadre d’un Intranet, on ne lèse pas les droits d’auteurs et d’éditeurs.», indique Emmanuel Hoog, président de l’INA. Mais la diffusion numérique d’archives provenant d’Internet - même communicables – provoque un changement d’échelle considérable. En effet, depuis la loi du 14 avril 2000, les archivistes peuvent demander la conservation de documents essentiels, bien que nominatifs, pour la connaissance à des fins historiques, statistiques et scientifiques. Certes, les délais de communication inscrits dans la loi sur les archives de 1979 sont longs, sans nécessairement possibilité de dérogation, même pour les chercheurs. Mais, « si l’usage du papier limite les recoupements abusifs, il faut toutefois veiller, comme l’incite la CNIL, aux facilités de traitement offertes par le numérique pour les masses importantes de données. Aux Etats-Unis, on commence à assister à des recoupements de bases de données, certaines émanants d’administrations publiques d’autres de sociétés de marketing. », souligne Julien Masanès.

L’interrogation intelligente de cette fabuleuse masse de données numériques, conservées dans des volumes réduits et sans dégradation au fil du temps, possède d’immenses vertus. « On ne s’adresse plus directement à des archives pour les compulser mais à des sciences auxiliaires, une forme de “ mathématique du numérique ”, encore aujourd’hui à l’état embryonnaire. », explique Jean-Michel Rodes, directeur de l’Inathèque de France. « On pourra travailler sur des phénomènes difficilement observables comme la parole. Et ainsi étudier quand apparaît tel mot, dans quel contexte et ainsi mieux cerner son sens. », détaille Bruno Bachimont, directeur scientifique à l’INA. Les recherches porteront également sur l’exploitation de l’hypertexte comme sur la lecture de cette cyberthèque virtuelle…. Avec, qui sait, le port de lunettes spéciales ?

En attendant les décrets d’application de la loi sur le Dépôt Légal d’Internet, sans doute pas en vigueur avant 2003, une longue période de test a commencé. La BNF, parfois en collaboration avec l’INRIA, expérimente la collecte sur une centaine de sites, avec leur accord évidemment. En mettant en avant sa capacité humaine d’analyse sur le plan documentaire. De son côté, l’INA profite de ses études de faisabilité de l’archivage du Web lancées il y a trois ans. Et insiste sur son savoir-faire en matière de traitement de gros volumes numériques, une seconde de télévision numérisée compressée représentant 50 pages HTML. Cette émulation, avec comme enjeu l’attribution d’une prestigieuse mission, ne peut que bénéficier à l’archivage du Web…

Encadrés

1 – Extrait du projet de loi sur Société de l’Information

« Lorsque la collecte automatique ne sera pas possible ou sera difficile pour des raisons techniques, elle pourra aussi s’effectuer selon d’autres modalités qui devront alors être définies par un accord entre les organismes dépositaires et les éditeurs ou producteurs de contenus. Cet accord permettra d’avoir la certitude que le dépôt légal ne fera pas subir de contraintes économiques aux producteurs ou éditeurs de services en ligne.

Dans tous les cas, les personnes soumises au dépôt légal devront être informées des procédures de collecte mises en œuvre. (…)

Compte tenu du caractère parfois sensible des éléments diffusés sur l'Internet, notamment par la présence d'éléments à caractère personnel dont la divulgation, plusieurs années après leur collecte, pourrait porter préjudice à certaines personnes, les modalités de consultation des dépôts ainsi constitués seront fixées par décret en Conseil d'Etat pris après avis de la Commission nationale de l'informatique et des libertés. »

2 – Attention aux trous de mémoire numérique !

En matière de pérennité des documents électroniques, la prise de conscience gouvernementale est récente. Elle date de 1998 avec le Programme d’Action Gouvernementale pour l’entrée de la France dans la Société de l’Information (PAGSI), qui s’intéresse en particulier aux projets de dématérialisation des procédures avec le citoyen ou ceux des actes authentiques (état civil, notaires, etc.). Actuellement, seules les grandes entreprises font appel à des banques de conservation appelées « sociétés de tiers-archiveurs », pour assurer la pérennité de leurs documents électroniques numériques. Cette inexorable dématérialisation promet des trous de mémoire importants si des services identiques ne se développent pas pour le particulier.

Dès à présent, en matière de loisirs et faute d'outils d'archivage corrects, mieux vaut imprimer ses photos numériques pour les retrouver dans dix ou vingt ans. Ou privilégier un format non dégradé et non compressé comme le .TIFF, voire un format compressé mais peu dégradé le .PNG. Pour les textes, le .RTF est recommandé. Le papier n’est pas prêt de disparaître. Pour certains documents de l’État, on exige toujours une conservation sous forme de papier…

----------------------

Cette enquête a été réalisée il y a 6 ans. Il s'agit là de la version originale et intégrale.

18/07/2007

Archivage du Web : Internet entre au Panthéon (1ère partie)

Le futur Dépôt Légal de l’Internet bouleverse les règles de l’archivage classique. En attendant sa mise en application par la loi, l’Institut National de l’Audiovisuel et la Bibliothèque Nationale de France se penchent déjà sur ces nouvelles problématiques d’ordre technique, scientifique et juridique soulevées par l’archivage de l’Internet.


Depuis l’adoption en Conseil des ministres du projet de loi sur la Société de l’Information en juin dernier, le dépôt légal de l’Internet est instauré. Cette décision gouvernementale s’inscrit dans la tradition patrimoniale d’un pays attaché à son passé et à sa mémoire. A l’instar de la télévision, du livre et du cinéma, elle reconnaît aussi Internet comme un média en soi. C’est-à-dire comme un lieu d’information et un reflet de notre société, de ses interrogations et de ses savoirs. Mais, à la différence des médias traditionnels, Internet est ouvert au plus grand nombre en raison de coûts de diffusion réduits et possède un contenu moins filtré que dans la diffusion classique. Si l’analyse de la société va gagner en profondeur et donc en pertinence, tout individu risquera d’accéder, à travers l’archivage de son site, à une postérité pas nécessairement désirée. En outre, cet espace innove en permanence dans ses formats d’expression, notamment au niveau technique. La mission de tout dépôt légal est de conserver un regard fidèle sur les œuvres de notre temps pour les générations futures. Pour s’en acquitter, le (ou les) organisme(s) dépositaire(s) du Dépôt Légal de l’Internet sont appelés à mettre en place des solutions nouvelles pour cet archivage d’un nouveau genre.

Jusqu’à présent, et selon la loi du 20 juin 1992, le dépôt légal s'appliquait déjà aux documents imprimés, graphiques, photographiques, sonores, audiovisuels, multimédias, quel que soit leur procédé technique de fabrication, d'édition ou de diffusion, dès lors qu'ils sont mis à la disposition d'un public. Il concernait également les progiciels, les bases de données, les systèmes experts et les autres produits de l'intelligence artificielle ouverts au public par diffusion sur un support matériel. Tout dépôt légal est organisé afin de permettre la collecte et la conservation des documents de toute nature publiés, produits ou diffusés en France, la constitution et la diffusion de bibliographies nationales ainsi que la consultation des documents, sous réserve des secrets protégés par la loi, dans des conditions conformes à la législation sur la propriété intellectuelle et compatibles avec leur conservation. Depuis le décret d’application du 31 décembre 1993, les organismes dépositaires sont la Bibliothèque Nationale de France, le Centre National de la Cinématographie, l’Institut National de l’Audiovisuel… et le Ministère de l’Intérieur. Jusqu’à maintenant, les documents à conserver étaient remis en mains propres ou adressés aux organismes dépositaires. En raison de la spécificité d’Internet, une modalité particulière de dépôt est d’ores et déjà prévue : « l’aspiration » des contenus. Un modèle déjà existant. L’INA pratique l’archivage à caractère systématique des six chaînes hertziennes en 1995 et d’une dizaine de chaînes du Câble et du satellite seulement depuis janvier 2002. Les éditeurs de service en ligne ne seront donc pas astreints, au titre du dépôt légal, à la moindre démarche active. En revanche, ils ne devront pas s’opposer aux collectes réalisées par les organismes dépositaires.

Contrairement à une idée reçue, archiver Internet n’est pas mission impossible en terme de taille. « Aujourd’hui, le Web mondial, en termes de caractères, représente quelques dizaines de téraoctets. Il tient dans une petite pièce de quelques mètres de côté remplie de quelques dizaines d’ordinateurs. », affirme Dominique Pignon, directeur du projet  « toute la mémoire du monde » Ecole Normale Supérieure / INA sur l’expérimentation du dépôt légal du Web francophone. Pas de crainte non plus quant à la volatilité du Web, dont 70% des pages possèdent une durée de vie inférieure à quatre mois. Il suffit de remettre les chiffres dans leur contexte. « La production littéraire française de chaque année tient sur un disque dur de n’importe quel micro-ordinateur contemporain. Chaque année, les écrits véritablement nouveaux de l’ensemble du monde représentent un demi téraoctet de caractères. Les images, et a fortiori les images vidéo, font entrer dans d’autre ordre de grandeur. Les caractères de 2 bouquins tiennent dans 1 Mo… soit aussi la taille d’une photographie grand public en version compressée. », reprend Dominique Pignon. La production pléthorique de documents sur papier, longue à interroger manuellement, apparaît plus démesurée. Pour exemple, 107 kilomètres de rayonnage sont enregistrés chaque année aux Archives de France.

Mais revenons à nos moutons numériques, source de multiples problématiques. Pour l’archivage de l’Internet, il faut définir quelles parties de l’espace virtuel sélectionner, comment organiser leur collecte et leur conservation, dans quel cadre juridique… mais aussi déterminer quelle institution en aura la charge d’une telle mission. Candidates, l’INA et la Bibliothèque Nationale de France ont déjà imaginé des solutions.

Zones interdites

L’archivage de l’Internet vise essentiellement le Web. En aucun cas la messagerie électronique ou les Intranet. La question des forums de discussion n’est toutefois pas tranchée. De plus, « des exceptions pourraient toucher la correspondance électronique personnelle d’un écrivain, comme nous avons conservé les manuscrits de Zola ou Céline, mais sans faire l’objet d’un dépôt légal. », avance Julien Masanès, conservateur chargé du projet d’archivage du Web à la Bibliothèque Nationale de France. D’une manière plus générale, il songe à définir une matrice du Web en terme de popularité, afin, par exemple, de séparer sur un même site perso la partie à vocation publique pointée par d’autres sites et la partie d’informations plus privées non pointée par l’extérieur. Cette utilisation pertinente de la notoriété pourrait reprendre le rôle de filtre de l’édition classique

Quant aux bases de données, il faut déterminer, en collaboration avec leurs producteurs, des moments d’archivage correspondant à des logiques intellectuelles de mise à jour. Et peut-être se prémunir contre l’effet de compilation permis par le numérique. En effet, à partir des données jurisprudentielles, qui comportent des décisions de justice nominatives, chacun peut aujourd’hui, à l’aide des moteurs de recherche, reconstituer le casier judiciaire d’une personne. Alors que son accès est fortement réglementé. C’est pourquoi la CNIL préconise une anonymisation des décisions de justice.

Par rapport aux autres types de documents, la collecte sur Internet comporte une double difficulté : les documents sont souvent modifiés – la moitié des sites « .com » change tous les 11 jours - et le moment de la mise à jour est imprévisible. De plus, les contenus en ligne sont moins délimités que les contenus classiques, car il faut prendre en considération les liens hypertextes. « Afin de permettre un archivage automatique d’Internet par aspiration, nous avons besoin de développer un robot de repérage de l’information sur le Web. D’une part, pour assurer une représentativité large. Mais également pour repérer, et archiver les sites non collectés par les robots – ce qui n’existe pas dans d’autres pays. », précise Julien Masanès. En effet, nos chers et indispensables moteurs, de Google à Alltheweb, ne couvrent ensemble que 40% du Web. D’où la notion de Web invisible, auquel leurs robots de repérage  n’accèdent pas. La barrière est constituée par un mot de passe, par un formulaire à remplir, par un numéro d’identification attribuée en fonction du moment de la visite. Même si, comme pour Yahoo, Voilà et Lycos, la sélection des sites est réalisée complètement ou en partie par des documentalistes.

D’autre part, « Le Web possède une mémoire « sélective », pas toujours objective. On l’a constaté deux jours après les événements du 11 septembre où, en réalisant une recherche sur « twin towers », les documents qui ont émergé n’était pas en rapport avec l’actualité. », explique David Degrelle, PDG de 1ère Position. Pour combler ce manque de réactivité du Web, www.alltheweb.com a mis en ligne depuis mi-novembre un module sur les actualités sollicitant plus de 3000 ressources d’informations sur le Net. N’empêche, le Web n’est pas une authentique bibliothèque. Reste un ultime souci de collecte : l’imposant flux en streaming, dont la livraison des contenus pourrait se réaliser sous forme de fichiers.

----------------------

Cette enquête a été réalisée il y a 6 ans. Il s'agit là de la version originale et intégrale.

 
Toute l'info avec 20minutes.fr, l'actualité en temps réel Toute l'info avec 20minutes.fr : l'actualité en temps réel | tout le sport : analyses, résultats et matchs en direct
high-tech | arts & stars : toute l'actu people | l'actu en images | La une des lecteurs : votre blog fait l'actu