Le Monde de Nalya

Actualité du monde du livre et de l'éducation. Conseils et adresses pour préparer le CAPES documentation et le concours de bibliothécaire territorial.

16 décembre 2007

Le point sur l'archivage par la BNF

Résumé du bulletin des bibliothèques de france de mars 2006 : Le dépôt légal d’Internet à la BNF.

Pourquoi archiver la Toile ?

  • Parce qu’il est indispensable de conserver des traces de ce nouveau média, présent aujourd’hui dans toutes les sphères du savoir et de notre société
  • Parce que conserver la mémoire de la Toile par le biais du dépôt légal, c’est prolonger les missions historiques qui ont permis la constitution de notre patrimoine
  • Parce que le dépôt légal de la Toile est prévu par le législateur (loi DADVSI)

Initialement promulguée pour les imprimés en 1537, l’obligation de dépôt légal pour les éditeurs, imprimeurs, producteurs, distributeurs et importateurs de documents s’est progressivement étendue à tous les types d’expression et de création.

Les sites Internet s’ajoutent désormais au périmètre de production éditoriale à conserver par la Bibliothèque nationale de France.

La loi DADVSI (Droit d’auteur et droit voisin dans la société de l’information) du 3 août 2006 prévoit ainsi l’extension du dépôt légal à tous « les signes, signaux, écrits, sons ou messages de toute nature qui font l’objet d’une communication au public par voie électronique ».

Qui est concerné par ce nouveau dispositif ?

Ø Du côté des institutions de mémoire l’Institut national de l’Audiovisuel (Ina) collectera les sites relevant du domaine de la communication audiovisuelle (en particulier ceux de la radio et de la télévision) et la BnF tous les autres.

Ø Du côté des opérateurs, l’obligation de dépôt légal pèsera sur les personnes qui éditent et produisent des sites Internet. Contrairement à ce qui est pratiqué pour les autres supports, elle n’impliquera pas de démarche particulière de leur part, car la collecte sera principalement effectuée par le biais de collectes automatiques réalisées par des robots que piloteront les institutions dépositaires. La seule obligation qui incombera aux producteurs sera de fournir les codes et les informations techniques susceptibles de faciliter l’archivage de leurs sites en cas de difficulté.

Le volume des publications sur Internet est sans précédent : L’exhaustivité ne peut plus être de mise et le recours aux captures et aux traitements automatiques est la seule issue pour conserver une partie significative de cette masse éphémère.

Cette nouvelle forme d’archivage s’attache à la fois aux sites Internet en tant qu’unités et aux liens qui tissent des relations entre les pages d’un site et entre les sites eux-mêmes : ce sont des « tissus » de documents entremêlés qu’on capture.

Difficultés rencontrées : la collecte automatique ne s’applique souvent qu’à la surface des sites et se heurte aux pièges et aux barrières qui protègent l’accès au « web profond » : qu’ils soient sécurisés, ou qu’ils s’appuient sur des techniques ou des bases de données qu’un robot ne peut capturer, nombreux sont les sites dont on ne peut archiver que la « capsule ».

Le volume de la production sur Internet est exponentiel : il n’est pas possible de viser l’exhaustivité ni de procéder à une sélection manuelle des sites. Afin d’apporter une réponse pragmatique mais complète aux difficultés techniques comme aux enjeux documentaires et patrimoniaux du dépôt légal dela Toile,la BnF a choisi une approche intégrée qui conjugue trois modes de collecte complémentaires :

  • des captures massives et automatiques du domaine français ;
  • des collectes ciblées qui s’appuient sur l’expertise de bibliothécaires ;
  • des dépôts à l’unité pour un nombre limité de sites qu’on ne peut archiver autrement.

La collecte automatique : La collecte automatique à grande échelle d’instantanés du domaine français est effectuée au moyen du robot Heritrix. Dans le cadre d’un partenariat de recherche avec l’organisme américain Internet Archive, la BnF a réalisé deux instantanés du domaine «.fr », fin 2004 et fin 2005.

Des copies d’instantanés des domaines génériques et français (collections historiques de 1996 à 2004) ont également été acquises : elles représentent plus de 6 milliards de fichiers.

La collecte ciblée : Des collectes thématiques et événementielles viennent compléter ce dispositif par des sélections plus fines.

2 critères de sélection :

  • Capturer les sites qui prolongent ou remplacent des collections qui ont engagé, voire achevé, leur migration vers Internet. (Exemple : les publications en série dontla BnF conserve les collections imprimées, souvent depuis leurs origines).
  • Pour ce qui est des nouvelles formes de publications qui émergent sur la Toile , il appartient aux « veilleurs » de chaque domaine documentaire de repérer ce qui présente un intérêt particulier dans son champ éditorial et de déterminer à quelle fréquence et à quelle profondeur il faut le capturer.

Les dépôts à l’unité :De manière plus exceptionnelle compte tenu des coûts de traitement, des dépôts spécifiques pourront être effectués par les producteurs de sites à la demande de la BnF. (Exemple, depuis juin 2005, archivage quotidien de la version électronique du Journal officiel par la BnF).

Les enjeux d’évolution pour le métier.

Quantitativement, l’essentiel des données proviendra des collectes automatiques. Pour des raisons économiques évidentes, la part de la sélection humaine et « manuelle » doit se limiter à certaines traces de la Toile.
Les bibliothécaires
chargés de ces acquisitions ciblées doivent apprendre à sélectionner des ressources de l’Internet, dans une perspective de représentativité (et plus uniquement de qualité, car il s’agit de dépôt légal, donc de conserver le meilleur comme le pire), en ajustant leurs pratiques d’évaluation des contenus aux spécificités de la Toile et aux techniques d’archivage automatique.

L’autre évolution majeure du métier concerne le traitement physique et intellectuel des archives. L’automatisation de pratiquement tous les processus aujourd’hui assurés par des humains est une nécessité compte tenu du passage à grande échelle mais aussi une opportunité nouvelle liée au support – numérique – de ces nouveaux documents.

Ces évolutions impliquent la définition de nouvelles compétences et de nouveaux profils de postes : par exemple, des « opérateurs numériques » capables d’exploiter au quotidien les processus automatisés de collecte et de traitement, mais aussi des experts en mesure de superviser l’indexation à grande échelle des contenus et de gérer les risques propres à la préservation pérenne des documents numériques alors que les formats et les dispositifs de consultation évoluent et disparaissent très vite.

Un dernier pan, essentiel, de cette évolution métier concerne l’accès public aux archives en salle de lecture.

De ce point de vue, le rôle des bibliothécaires concerne d’abord la mise au point d’outils de consultation et de services de médiation adaptés aux besoins des utilisateurs. La préparation des futures conditions de consultation des archives s’appuie sur une collaboration étroite avec des représentants des usagers, notamment des communautés de chercheurs, spécialistes d’Internet et de la sociologie des médias mais aussi de l’histoire sociale.

Pour aller plus loin : Dossier de presse "les enjeux du dépôt légal de la Toile" réalisé par la BNF (décembre 2005)

http://www.wikio.fr
Posté par Nalya à 11:28 - Numérisation et archivage - Commentaires [0] - Permalien [#]

Poster un commentaire