La gestion aide à maîtriser la donnée
Si la donnée est le nouvel or, sans doute est-il pertinent d’en améliorer l’exploitation. Au-delà de ce constat, la similitude entre la donnée et l’or n’est à vrai dire plus exactement pertinente. En effet, les volumes et la dispersion des données dans une entreprise augmentent nettement plus vite que les réserves de métal précieux. Du coup, la gestion de données se révèle essentielle pour garder l’ensemble sous contrôle.
La dispersion géographique des données est une évolution qui a connu un coup d’accélérateur avec le Covid. Dans le jargon, les spécialistes parlent de ‘géo-dispersion’ : les données ne se trouvent plus uniquement dans le centre de données interne, mais se dispersent aussi toujours plus vers le cloud et la périphérie (edge). Dans le même temps, les volumes de données ne cessent de croître, avec un doublement tous les 18 à 20 mois, sachant que 90% de ces données sont non-structurées. Le défi majeur consiste dès lors à se doter d’un système de gestion de données adapté à (très) grande échelle.
Plan à 100 ans
Dans certaines organisations, il ne s’agit pas seulement des volumes qui explosent, mais aussi de très longs délais de rétention. L’Université de Princeton en est un parfait exemple. L’institution existe depuis 1746 et fait partie du top absolu de l’enseignement universitaire. Pour preuve, Einstein et Oppenheimer ont été rattachés à cette université. « Princeton entendait numériser sa bibliothèque », explique Jason Lohrey, fondateur et CEO d’Arcitecta, que Data News a rencontré dans l’entreprise à Louisville près de Denver, dans le cadre du récent IT Press Tour. « L’Université de Princeton a prévu pour ce faire un plan de gestion des données pour les 100 prochaines années. »
À y regarder de plus près, cette approche pose une question fondamentale : l’université sera-t-elle obligée de procéder sur les 100 prochaines années à une migration complète de sa bibliothèque numérique tous les 5 ans – soit le délai classique de remplacement du matériel ? Et si tel devait être le cas, comment un chercheur pourra-t-il en 2040 par exemple retrouver des données datant de 2024 ? « Il s’agit là d’un véritable défi sur le plan de la gestion des données », reconnaît Jason Johrey. « Autrefois, l’université travaillait beaucoup avec IBM, puis par la suite avec Dell EMC Isilon. Mais pour être totalement indépendants de la technologie sous-jacente, nous sommes passés sur Arcitecta pour la gestion des données. » Sur la base de métadonnées, la solution permet de rendre les données récupérables.
Flexibilité pour des projets d’IA
Au-delà de la problématique de l’explosion des volumes de données, se pose la question déjà évoquée de l’endroit où doivent résider les données. À cet égard, le modèle hybride semble s’imposer. « Certes, il existe des entreprises qui travaillent exclusivement dans le cloud », précise Kiran Bhageshpur, CTO de Qumulo, « mais la réalité est qu’une majorité d’entreprises continue à gérer une large part de son stockage sur site. » Quoi qu’il en soit, le cloud se positionne toujours davantage au premier plan, une évolution sur laquelle surfe Qumulo. Le nom de l’entreprise établie à Seattle fait référence sans grande surprise au ‘culumus’, le nom latin de ‘nuage’. Data News a rencontré son CTO au siège de son investisseur à Memlo Park dans la Silicon Valley.
« Le cloud offre certes une protection intéressante contre les rançongiciels notamment », analyse Kiran Bhageshpur, « mais les entreprises recherchent surtout la flexibilité pour leurs charges de travail, par exemple dans le contexte de projets d’IA. Il s’agit de la motivation principale du choix du cloud. » Qumulo offre une solution qui recouvre l’éventail complet, depuis l’infrastructure sur site jusqu’au cloud et à la périphérie. Dans ce contexte, Qumolo met clairement en avant les avantages du cloud, notamment avec sa solution commercialisée en SaaS sur Azure, tant pour les données ‘froides’ que ‘chaudes’. « Ce faisant, nous offrons de l’évolutivité en termes de performances et de capacité, le tout à un prix comparable à celui d’une solution sur site, voire plus avantageux. » Sur le site web de Qumolo, l’utilisateur peut facilement définir ses choix. « Un déploiement peut se faire en quelques minutes, alors qu’il faudrait plusieurs mois dans un projet sur site pour commander l’ensemble du matériel, puis le mettre en production. » Or l’entreprise qui désire aujourd’hui tester des applications d’IA ne peut simplement pas se permettre des délais aussi longs.
Une fin digne pour chaque application
Un thème souvent négligé dans le contexte de la gestion des données concerne le décommissionnement d’applications : lorsqu’une application arrive au terme de son cycle de vie, l’entreprise continue souvent à la conserver un certain temps encore. Et pour cause puisque cette application est la manière de pouvoir continuer à accéder aux données. « Il faut pouvoir conserver ces données quelque part », analyse John Ottman, président exécutif de Solix Technologies, établie un peu plus loin dans la Silicon Valley, à Santa Clara précisément. « Il faut pouvoir éviter par exemple de continuer à gérer un mainframe non pas parce qu’il tourne une application, mais bien pour les données qu’il stocke. »
Selon Solix, les entreprises conserveraient 20% en moyenne de leurs applications uniquement comme substitut pour le stockage de leurs données. « Rien qu’à ce niveau réside un potentiel énorme d’économies », explique Ottman. C’est d’ailleurs l’une des raisons pour lesquelles Solix a mis au point une plateforme de données capable de consolider tous les types de données possible. « Cela évite par exemple de devoir conserver une infrastructure ou des applications trop anciennes, y compris l’expertise nécessaire. Grâce à notre plateforme de données, une entreprise peut parfaitement garder ses données, tout en garantissant la conformité, sans pour autant subir les coûts liés à des applications qui ne sont en réalité plus utilisées depuis bien longtemps. »
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici