« Concentrez-vous sur l’utilisation de l’IA, pas sur le développement d’applications propres »

© Getty Images
Dries Van Damme

En cette ère de l’IA, les données sont au centre de tout. Le défi consiste donc à rassembler des informations provenant de systèmes dispersés et à les rendre exploitables. Pour CTERA Networks, cela ne fait aucun doute : plutôt que de créer elles-mêmes des applications d’IA génératives, les entreprises ont tout intérêt à se concentrer sur la qualité de ces données.

CTERA Networks est une société israélienne qui propose une plateforme de données en cloud hybride et divers services de données. Elle connecte les sites et utilisateurs à des clouds privés, hybrides et publics sans la moindre concession en matière de sécurité et de performances. Dans le cadre de l’IT Press Tour, Data News a rencontré son CTO Aron Brand, qui s’est récemment installé à New York. « Nous réalisons trois quarts de notre chiffre d’affaires aux États-Unis », explique-t-il. « À l’époque de la crise sanitaire, tout le monde travaillait en distanciel, mais les choses ont beaucoup évolué ces deux dernières années. Il est à nouveau important de rencontrer les gens en personne. »

Priorités et opportunités

Une enquête menée par CTERA révèle que les entreprises considèrent toujours la cybersécurité comme leur priorité absolue. Viennent ensuite les projets IA stratégiques et la gestion de la croissance des données. « Les entreprises sont en revanche unanimes pour ce qui concerne la principale opportunité », poursuit Aron Brand. « Ce sont leurs propres données. » Un domaine dans lequel CTERA distingue trois phases. La première est la localisation des données. Qu’elles le fassent sur site, en périphérie ou dans le cloud, les entreprises ne cessent d’étendre leur capacité de stockage de données non structurées – selon Gartner, elles devraient augmenter d’un facteur trois d’ici 2028. Résultat : la complexité architecturale de l’ensemble s’accroît à vue d’œil.

Le premier défi consiste donc à transformer tous ces silos en un environnement unifié. « Dans la deuxième phase, il s’agit d’exploiter ces données. Mais dans la pratique, on est confrontés à des types de données de plus plus nombreux. Au point qu’un entrepôt de données classique ne suffit plus. » La réponse réside dans la gestion des métadonnées – et la transformation de cet environnement unifié en un lac de données sécurisé. « La troisième phase consiste à passer du lac de données au data asset : un actif exploitable par votre entreprise », explique Aron Brand. « Tout dépend alors de la qualité des données. » Cette qualité s’avère plus que jamais cruciale aujourd’hui – notamment dans le contexte de l’IA générative.

Crédibles… mais faux

Dans le contexte de l’IA générative, une mauvaise compréhension de ses propres données – notamment de leur qualité – mène inévitablement à des accidents. « De nombreuses entreprises lâchent une IA générative sur leurs données sans trop d’encadrement », poursuit Aron Brand. « Elles pensent que tout ira de soi, mais évidemment, ce n’est pas le cas. « Ceux qui introduisent des données de mauvaise qualité dans une IA générative obtiennent principalement des very confident errors. » Des résultats qui semblent convaincants, bons et crédibles. « Mais ce n’est donc pas le cas. C’est le grand problème de l’IA générative aujourd’hui : on considère ses résultats comme vrais parce qu’ils semblent bons. Et le pire, c’est qu’au fil du temps, ces mauvais résultats deviennent la vérité. »

Le problème ne réside donc pas tant dans les données – les entreprises en ont généralement assez – que dans leur qualité.

Le problème ne réside donc pas tant dans les données – les entreprises en ont généralement assez – que dans leur qualité. Aron ’ voit plusieurs quality killers. « Le stockage de données en premier lieu, souvent négligent et désordonné », explique-t-il. « Il faut des outils pour classer les données et les enrichir de métadonnées. » Il s’agit là des premières phases qu’Aron Brand évoquait précédemment : sortir les données des silos et s’assurer que des formats de données spécifiques sont utilisables en dehors de leur silo. Mis des règles trop strictes en matière de compliance et de sécurité vont également nuire à l’exploitation des données. « Même s’il faut également mettre en place un contrôle d’accès adéquat et des garde-corps appropriés », ajoute-t-il.

À chacun son métier

En réalité, les collaborateurs d’une entreprise n’ont qu’un seul objectif : travailler efficacement. « C’est la raison pour laquelle ils avaient auparavant l’habitude de placer leurs données dans Dropbox », poursuit Aron Brand. « Et c’est exactement la même raison qui les incite aujourd’hui à jeter ces mêmes données dans le ChatGPT. » Selon lui, il est impossible d’aller à l’encontre de l’utilisation de l’IA générative. « Interdire n’est pas la bonne solution, mais il faut veiller à ce que l’utilisation de l’IA générique soit sûre. »

En bref, la gouvernance des données gagne en importance, en particulier le rôle du curateur de données. Car seules des données au point – correctes, trouvables et exploitables en toute sécurité – permettent à l’IA générative de fournir des réponses précises et pertinentes. Une étude du MIT désormais fameuse révèle que 95% des projets liés à l’IA générative ne dépassent pas le stade du pilote. Mais selon Aron Brand, cela n’est pas uniquement lié à des problèmes de données. « Une compagnie aérienne utilise certes des avions pour fournir un service spécifique, mais elle ne les construit pas. De la même manière, les entreprises ne doivent pas vouloir absolument construire elles-mêmes des solutions IA. Elles doivent se concentrer sur leur utilisation. »

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Expertise Partenaire