Archiver Internet

Hier, je suis allé à une conférence du Forum des Archivistes – Genève sur le projet Archives Web Suisse de la Bibliothèque nationale. Le projet consiste à archiver une sélection des quelques 1.4 millions de sites en .ch, en coopération avec les bibliothèques cantonales, et se résume pour le moment à un chiffre assez peu impressionnant d’une centaine de sites archivés.

Bon, il faut voir que l’objectif de la BNS n’est pas non plus de faire une sauvegarde complète d’Internet (sur disquette) ou même de sa seule partie suisse, mais de ne conserver que ceux des sites qui ont une “valeur patrimoniale”. Il n’empêche que c’est le genre d’effort qui tient beaucoup de Sisyphe et de son rocher. Les technologies du web évoluent très vite, plus vite que les technologies d’archivage d’icelui, et le contenu disponible augmente de façon exponentielle.

Cela dit, c’est le genre de choses qui a attiré mon attention d’historien: une grande partie de ce qui fait notre patrimoine culturel en ce début de XXIe siècle (sans avoir même à juger de la qualité) est écrit sur du sable – littéralement, même si on me dira que le silicium n’est pas réellement du sable; que l’on m’autorise un minimum de licence poétique!

Il y a deux soucis majeurs: le premier, c’est comment conserver des données sur une très longue durée. On dira ce qu’on veut de l’impression traditionnelle, mais ça se conserve longtemps. Même le papier toupourri utilisé à la fin du XIXe siècle et au début du XXe siècle ne commence à partir en vrille qu’après quelques décennies; essayez seulement de lire une de vos vieilles disquettes d’il y a dix ans!

Le second, c’est que les formats eux-mêmes tendent à devenir obsolète très rapidement. Là encore, essayez d’ouvrir un fichier créé il y a dix ou quinze ans: il y a de bonnes chances qu’il ait été créé par un logiciel qui n’existe plus et ne tourne plus sur votre machine. Il y a certes des efforts de standardisation et le HTML créé par Tim Berners-Lee au tout début de ses bricolages est probablement toujours lisible par un navigateur récent, mais dès qu’on sort un peu des sentiers battus (au hasard, avec des programmes de mise en page), ça a toutes les chances de planter.

Parlera-t-on, dans un siècle, de notre génération comme d’un trou noir de l’Histoire, une “génération perdue” par faute d’archivage?

(Image: Archives de la Société des Nations (ONU Genève) par Calvinius via Wikimedia Commons, sous licence Creative Commons, partage dans les mêmes conditions.)

Pour soutenir Blog à part / Erdorin:

Blog à part est un blog sans publicité. Son contenu est distribué sous licence Creative Commons (CC-BY).

Si vous souhaitez me soutenir, vous pouvez me faire des micro-dons sur Ko-Fi, sur Liberapay ou sur uTip. Je suis également présent sur Patreon et sur KissKissBankBank pour des soutiens sur la longue durée.

8 réflexions au sujet de “Archiver Internet”

  1. Oui, c’est un truc qui me fascine aussi, et pour les même raisons. ce qui me fait dire…

    • Comment déterminer ce qui sera intéressant dans trois, dix, cent ans? C’est un gros problème. Au niveau du livre, ça se faisait tout seul : publier était un acte de protection de l’écrit, et une fois les livres en circulation, l’intérêt se déterminait au nombres de copies et à la demande du bouquin. Avec internet, on divise par cent, facile, le cycle de vie en question. Faudra trouver d’autres choses, et pas nécessairement le nombre de hits par jour.

    • Y’a pas moyen, je sais pas, de graver les données en solid state, genre dans un hologramme – comme dans les séries de notre enfance? Ca doit être jouable de graver les bits au laser dans du titane pour le relire après, non? J’en sais rien – j’ai vraiment rien d’un techie – mais ce genre de choses, on doit s’y intéresser depuis longtemps, non? Je veux dire, les chercheurs et les ingénieurs ont pas attendu aujourd’hui pour se dire qu’il faudra bien trouver un moyen de conserver les données autrement qu’en jonglant avec, si?

    Répondre
    • Tu peux graver tout ce que tu veux dans ce que tu veux, mais comment être certain que, dans un siècle ou cent, on sera capable de 1) les relire, 2) d’interpréter le format de façon lisible.

      On s’y intéresse, mais pas depuis aussi longtemps que ça et on a déjà des problèmes avec des disques durs datant d’il y a trente ans.

      Répondre
      • C’est le même problème avec les langues oubliées. Si on va par là, personne n’est sûr qu’on lira le français dans mille ans. Le fossé s’accélère (pour peu qu’un fossé puisse accélérer, mais je me comprends), c’est tout. Déjà, le problème du support qui ne se détériore pas en quelques années, ça serait pas mal (parce que j’ai déjà des CD gravés illisibles après trois ans et ça me fait chier).

        Ensuite, bah ouais, matos, méthode… Mais pour concentrer des données complexes de façon efficace, on est un brin obligé pour le moment de des “coder” en autre chose qu’un ordinateur lira. L’analogique est trop gourmand et pas assez flexible.

        En fait, ça pourrait le faire, non, de trouver un nouveau procédé analogique qui recevrait les données digitales quand on doit les garder longtemps? Pour peu que la méthode de lecture reste évidente. Genre l’équivalent en données d’un hologramme, justement. Un support persistant qui serait également son propre interprétant. Genre un livre, mais en beaucoup plus petit et avec beaucoup plus de contenance. Mais là je nage en pleine science-fiction.

        Répondre
        • On arrive encore à lire du proto-français d’il y a plus de mille ans (les Serments de Strasbourg, premier document considéré comme en Ancien Françaus, date de 842), simplement parce que l’évolution s’est faite graduellement depuis le bas-latin vers le français moderne.

          C’est clair qu’à l’heure actuelle, seuls une poignée d’estimés professeurs peuvent lire des documents en “français” du IXe siècle, mais, à moins d’un cataclysme à grand spectacle façon Michael Bay ou d’une Singularité strossienne, on peut estimer que, dans mille ans, d’autres estimés professeurs (ou les mêmes, peut-être) pourront toujours lire ces mêmes documents.

          Pour l’informatique, le problème est que l’évolution se fait de façon beaucoup plus rapide et, souvent, façon “brûle ce que tu as adoré, adore ce que tu as brûlé”. Ajoute à ça le manque de fiabilité matérielle des supports et tu as la recette pour une techno-amnésie de masse.

          Répondre
  2. Il y assez longtemps, j’avais vu un projet qui se basé sur des perforations sur un disque de métal (je ne crois pas que c’était du titane), l’idée était de stocker ça en format human-readable. Malheureusement je n’ai pas réussi à retrouver de lien en vitesse. Quand à décider de l’importance d’une page donnée, une solution est de chercher l’eigenvalue de la matrice des liens, c’est ce que fait Google.

    Répondre
    • @ Thias : l’ennui c’est qu’on a pas d’avantage sur l’écrit à part la durabilité. Une page, c’est gros, c’est chiant et ça prend de la place. Un bit c’est petit et ça se range facilement. Ca fait combien, un feuillet? 1.000 signes, 2.000? En bit, ca fait seize petits Ko. si je ne m’abuse (avec un codage 8 bits – ca va, j’ai toujours bon?). Même avec un format “lisible” à l’oeil, disons une grille de cases d’un petit mm. de côté, on arrive à fourrer tout ça dans… (putain, la calculette Apple fait pas racine carré) allez, à peu près 12,5 cm de côté, soit peu ou prou le quart de la surface d’un feuillet.

      On a toujours plus d’infos à véhiculer et à stocker, et le prix à payer c’est de devoir faire appel à des processus de décodage tellement partis de la tête qu’il nous faut une machine pour le faire. Machine qui doit avoir un degré de sophistication suffisant pour avoir ses propres mécanismes sémantiques, de codage et décodage qui nous sont inaccessibles.

      Imagine : si on doit imprimer Internet, avec une jet d’encre, ça prendrait plus de 3000 ans. Graver ça, ça prend du temps et de la place. Et il y a bien 1/10 d’infos susceptibles d’être utiles plus tard. Je pense pas qu’on puisse revenir en arrière.

      Répondre
      • @Greg l’idée n’était pas de stocker le truc en texte, mais dans un format lisible avec un microscope. Si tu pars de cette idée, le binaire n’est pas tant une bonne idée, vu que tu veux probablement mettre plus qu’un symbole par emplacement. Un stockage numérique est certes compact, mais plus tu fais quelque chose de compact, plus il te faut d’information (du contexte) pour décoder les données. À mon sens, le truc intéressant à faire serait de faire un encodage synthétique compact, mais décodable par des humains.

        Si tu veux un truc informatique. Il y a un papier de l’année dernière qui décrit un système qui est en théorie capable de tenir 1400 ans. http://www.ssrc.ucsc.edu/Papers/storer-fast08.pdf

        Répondre
  3. C’est à mon avis le fléau actuel. Combien de fois ais-je perdu une information parce que le site que j’avais consulté a disparu ? Trop souvent. Et je ne parle même pas des images. (D’ailleurs la NASA elle même sait à quel point il est facile de perdre définitivement des données. pas de chance pour elle, c’était des images des missions vikings.)

    Répondre

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.