Prévenir le "trou noir numérique"

15/10/10 à 14:57 - Mise à jour à 14:57

Source: Datanews

Quelle politique de sauvegarde du patrimoine numérique doit-on mettre en place?

Prévenir le "trou noir numérique"

Quelle politique de sauvegarde du patrimoine numérique doit-on mettre en place?

Que restera-t-il du patrimoine numérique que nous sommes en train de constituer dans 30 ans? Pour la première fois dans l'histoire, nous produisons en abondance du contenu qui n'est pas naturellement pérenne dans le temps. Comme les capacités de stockage n'ont jamais été aussi importantes et que les coûts associés n'ont jamais été aussi faibles, la tentation est forte de penser que stocker le patrimoine numérique est suffisant pour le conserver. Mais dans ce cas, sauvegarder n'est pas synonyme de sauver.

Le risque de pertes de données numériques est un sujet qui nous touche tous. Or, si l'on commence à évoquer ce danger, on a alerté l'opinion uniquement sur la fragilité physique des supports d'enregistrement. Mais un danger plus insidieux existe par ailleurs.

En effet, dans la pratique, la perte de données suite à la détérioration des supports physiques où elles sont enregistrées est bien moins importante que celle due aux formats. On se rend trop tardivement compte que des données ne sont plus utilisables, faute de pouvoir reconnaître le format du fichier dans lequel il est encodé ou parce que le format ne stocke pas les différentes informations nécessaires à la conversion souhaitée.

A titre d'exemple, nous avons travaillé pour un grand groupe de presse qui a souhaité récupérer son fond de photos numériques stocké sur CD pour alimenter une base de consultation photographique. Nous avons ainsi travaillé sur plus de 10.000 CD/DVD pour récupérer les fichiers images. Sur l'ensemble de ces supports, seulement 0,33% étaient totalement illisibles. Par contre, les difficultés à récupérer le contenu ont été nombreuses sur les 800.000 fichiers au total. La première difficulté rencontrée est liée à une mauvaise gestion des fichiers archivés. Un mélange dans les répertoires des fichiers images et des fichiers annexes (20%) créés par les logiciels utilisés rend la consultation du support compliquée. De plus, un nommage non normalisé des fichiers rend les fichiers incompatibles (2%) avec les environnements d'aujourd'hui. La deuxième difficulté et la plus importante est l'opacité des formats. Nous avons rencontré des fichiers ne portant pas de suffixe ou n'ayant pas un suffixe correspondant au format graphique effectif du fichier. Nous avons dû déterminer les formats en confrontant les fichiers "image" à une base de signatures de formats numériques de plus de 3.500 entrées. Malgré cette confrontation, nous avons constaté que 16% des fichiers n'ont pas pu être récupérés, aucun format graphique testé n'ayant permis leur lecture. Ces fichiers, soit parce qu'ils sont d'un format trop archaïque ou exotique, soit parce qu'ils ont été définitivement corrompus, sont considérés comme perdus.

Le problème est directement lié à la prédominance des formats propriétaires. Dans beaucoup de cas, les documents sont sauvegardés dans les formats natifs des logiciels utilisés. Soit il s'agit de formats propriétaires entièrement opaques, soit de formats documentés mais dont les spécifications évoluent en permanence au rythme des nouvelles versions et fonctionnalités, générant des incompatibilités ascendantes. Cette faible durée de vie est intrinsèque à l'économie du logiciel dont le moteur est le renouvellement des licences. Il y a donc ici conflit d'intérêt entre l'industrie du logiciel et les utilisateurs.

Les risques se révèlent plus ou moins importants suivant le type de données concernées. En effet, si pour les fichiers textes, la majorité des éditeurs professionnels ont déjà adopté des standards comme le xml, on retrouve dans les fichiers issus du prépresse, ainsi que dans le multimédia et la 3D, de nombreux formats propriétaires.

Les grandes institutions qui ont en charge la conservation de notre patrimoine ont pris conscience du problème dans ses différents aspects. Elles ont résolu le problème de la fragilité du support grâce à un système de recopies (sur support magnétique notamment). Par ailleurs, elles mettent en place des plates-formes expérimentales d'émulateurs reproduisant logiciellement des architectures d'ordinateurs disparues du marché et permettant ainsi de faire tourner les systèmes d'exploitation et les logiciels anciens qui y étaient liés. Une telle solution reste toutefois difficilement envisageable pour les particuliers et la plupart des entreprises.

L'adoption stricte de formats standards, via la création de vrais standards techniques de droit sous l'égide de groupes de travail, se présente comme une solution alternative. Les formats standards ont en effet de précieux avantages: les spécifications produites sont de très bonne qualité, ils garantissent l'absence d'ambigüité et sont construits de manière à éviter les incompatibilités ascendantes.

Sauver le contenu numérique et le rendre pérenne ne peut se faire en se concentrant sur les supports physiques des données. Même en multipliant les sauvegardes et en migrant perpétuellement les données d'un support physique à un autre, on se contente de recopier fidèlement un message dont on a perdu la clé. L'utilisation stricte de formats standards de droit devrait être soutenue et intégrée comme un des principes fondamentaux de la politique d'archivage des données numériques.

Jean-Charles Morisseau Jean-Charles Morisseau est Président du Groupe Diadeis. Issue du monde des arts graphiques, Diadeis a progressivement élargi sa gamme de services vers les secteurs de la numérisation (numérisation de fonds historiques composés de photographies, livres, plans et archives ; publication et numérisation d'ouvrages juridiques ; externalisation de services) et de la production publicitaire.

Nos partenaires