Les pertes de données dans les systèmes de stockage sont “inévitables”

Contrairement à ce que veulent nous faire croire pas mal de vendeurs de produits de stockage, il n’existe pas de protection sûre à cent pour cent contre la perte de données dans les systèmes de stockage. Il est cependant possible de réduire énormément le risque de perte de données en recourant à des techniques intelligentes, selon Paul Carpentier, CTO de Caringo.

Il n’y a pas de protection sûre à cent pour cent contre la perte de données, comme l’affirment certaines entreprises de stockage, écrit Paul Carpentier, chief technology officer du spécialiste texan du stockage Caringo, dans un rapport intéressant intitulé “Replication and Erasure Coding Explained“. L’on peut cependant réduire le risque et l’importance de la perte de données. “Unlike what most storage vendors will try to make you believe, data loss in storage systems is unavoidable. It’s right up there with death and taxes in that respect”, écrit Carpentier qui, en tant que co-fondateur de Gnosis, WaveResearch, FilePool, Hypertrust et Caringo, est une vieille connaissance du marché ICT belge.


Carpentier explique son point de vue dans un essai aisément lisible et truffé de statistiques et de graphiques intéressants. Dans le passé, toutes sortes de techniques ont été mises au point pour éviter les pertes de données. Pensez à la duplication de fichiers ou d’objets et à des schémas de protection basés parité tels “RAID” de stockage sur disque ou “erasure coding” (aussi appelé encodage Reed-Solomon) pour le stockage basé objet.


Pour les systèmes de protection des données basés parité, l’on établit toujours une pondération entre le niveau de la protection et la capacité complémentaire qui est écessaire pour conserver l’information de parité. Dans un système où existent deux copies de chaque objet data, des données seront perdues si deux disques refusent tout service en même temps. Si un volume refuse tout service durant le cycle de restauration, des données seront également perdues. Il est donc essentiel que la restauration soit effectuée le plus rapidement possible. “Performance of the code equals robustness of the storage solution”, écrit encore Carpentier.


La quantité de données qui peuvent être potentiellement perdues est fonction du schéma de protection choisi. Si l’on ajoute par exemple dans un système RAID des disques supplémentaires, l’on accroît le risque de panne. En même temps, l’importance potentielle de la perte de données croît aussi. Une approche dite ‘brute-force’ de la protection des données a clairement plus de limites que les seuls coûts.


Mais comment déterminer la fiabilité des systèmes de stockage, qui deviennent toujours plus complexes et volumineux? L’industrie a développé à cette fin une formule statistique qui exprime la durabilité d’un “object cloud” (compile de données) en “neuf de durabilité”: combien de 9 derrière la virgule y a-t-il dans le nombre qui exprime le risque statistique de perte de données?


Supposons que nos calculs nous apprennent que la perte de données dans un système de stockage déterminé ne se manifestera que tous les 17 ans. Nous pouvons dans ce cas calculer la fraction de données susceptible d’être perdue à ce moment et aboutir à un petit nombre, par exemple 0,0000000000001. Cela signifie évidemment qu’en cas de calamité, 0,9999999999999 ou 99.99999999999% de nos données seront encore bien là. “Une manière plus simple de l’exprimer est ’13 neuf de durabilité'”, poursuit Carpentier. Plus élevé est le nombre de ‘9 de durabilité’, moindre est le risque de conservation de données. Les fabricants utilisent toujours davantage ce nombre pour exprimer la fiabilité de leurs systèmes de stockage.


Paul Carpentier n’a évidemment pas écrit sans raison son rapport (‘whitepaper’). Caringo, qui est avec son produit CAstor le numéro un mondial sur le marché du stockage massif de données non structurées, a mis au point un “Data Durability Calculator” permettant aux clients de calculer leurs besoins de stockage en fonction de l’efficience de stockage souhaitée et de la durabilité attendue des objets data stockés.


Update 15/02/2013 9h00: le 6 Mars 2013 à 20 heures Paul Carpentier donnera un webinar sur ce sujet. Info et inscription: http://goo.gl/wtpJj.

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Contenu partenaire