Un modèle linguistique belge apprend à parler comme un enfant

Une image d’archive d’un jouet-robot. © Getty Images
Ronald Meeus

Deux chercheurs universitaires belges en IA ont découvert qu’il existe une autre façon d’enseigner une langue à l’intelligence artificielle. Non pas en effectuant des prédictions statistiques à partir de vastes quantités de texte, mais bien de la même manière qu’un enfant apprend à parler: par interaction directe avec le monde. Cela ouvre d’emblée de nouvelles perspectives pour la robotique.

Lorsque ChatGPT, Claude ou LLaMA répondent à une question complexe, on a souvent l’impression que le modèle linguistique en question nous a parfaitement compris, mais en réalité, il ne ‘pige’ rien du tout. ‘Il a principalement appris à prévoir le mot suivant’, explique Paul Van Eecke, professeur à l’Artificial Intelligence Laboratory de la Vrije Universiteit Brussel (VUB). ‘Il génère du texte à partir d’énormes quantités de données écrites sur internet, qu’il soumet ensuite à des calculs statistiques. Cela génère des résultats impressionnants, mais c’est fondamentalement différent de la façon dont les humains apprennent une langue.’

‘Mais les ordinateurs devraient à terme être capables d’y arriver’, estiment Paul Van Eecke et Katrien Beuls, maître de conférences en linguistique computationnelle à l’Université de Namur. Conjointement, ils ont développé un modèle linguistique artificiel intelligent qui apprend une langue comme le font les humains, en s’inspirant de la façon dont les enfants apprennent leur langue maternelle: par interaction. En déchiffrant activement le sens de ce qu’ils vivent dans leur environnement, les agents d’IA que le duo a développés, produisent non seulement un langage, mais le comprennent également.

‘En communiquant avec leur environnement, les enfants apprennent à interpréter les intentions de leurs interlocuteurs: entre eux, avec leurs parents et avec les autres personnes qui s’occupent d’eux’, explique Beuls. ‘Ce faisant, ils apprennent progressivement à comprendre et à utiliser les constructions linguistiques. Ils apprennent une langue à travers un contexte significatif, grâce à un lien entre la langue et le monde qui les entoure.’

Expérimentations

Beuls et Van Eecke ont d’abord créé des agents d’IA, puis effectué des expérimentations avec eux. C’est ainsi qu’ils leur ont demandé d’inventer des mots pour désigner des vins issus d’une base de données de près de 5.000 crus, en fonction de paramètres tels que l’acidité, la teneur en sucre, l’alcool et les sulfates. Après de nombreuses interactions, ces ‘sommeliers’ virtuels ont développé un langage commun relativement cohérent pour se comprendre. Par exemple, pour désigner un vin contenant environ 12,34 grammes de teneur en sucre par litre, les agents ont inventé le mot ‘zapose’, qui a ensuite été utilisé systématiquement dans leur langage commun. Dans une autre expérience, les agents ont appris à devenir une sorte de ‘comptable’ artificiel, inventant leurs propres mots pour certains types de transactions par carte de crédit.

‘L’objectif n’est pas de développer des chatbots basés sur notre architecture’, précise Van Eecke. ‘Nous envisageons plutôt des agents artificiels capables d’explorer le monde et de prendre leurs propres décisions. Ils n’auront même plus besoin d’apprendre le langage humain pour communiquer entre eux: ils pourront développer leur propre langue. Le langage repose sur ce que nous percevons par nos sens, mais ceux-ci sont beaucoup plus complexes. Prenons l’exemple des couleurs: nous ne connaissons que les couleurs du spectre visuel. Il est inutile de connaître des couleurs invisibles. Or, les robots ont une perception bien plus fine. Nous n’avons, nous, ni LiDAR ni capteurs de température. Un robot les possèdera, lui, et aura donc besoin d’un langage lié à ces perceptions plus complexes.’

Signification et intention

La méthode utilisée par Beuls et Van Eecke pour développer de futurs modèles linguistiques présente plusieurs avantages intrinsèques par rapport aux grands modèles linguistiques (LLM) actuels, selon eux. Comme leurs modèles sont basés sur l’interaction directe avec le monde, et donc plus fermement ancrés dans la signification et l’intention, ils devraient être moins sujets aux hallucinations et aux préjugés: ils comprennent mieux le contexte.

‘Les limites des modèles linguistiques actuels sont inhérentes à leur nature prédictive’, explique Van Eecke. ‘Comment arriver à une hallucination? Du fait que le modèle linguistique a prédit des mots qui peuvent être statistiquement corrects, mais qui ne correspondent plus à la réalité. Avec notre méthode, il existe toujours un lien avec ce que l’ordinateur perçoit et voit. Il est ancré dans le monde. Les quantités de données nécessaires à nos systèmes expérimentaux sont également bien plus faibles, car ils ne fonctionnent pas avec des données textuelles.’

Les principales fabriques de modèles linguistiques préparent également des LLM contextualisés, à savoir des modèles linguistiques qui testent leurs réponses par rapport à un contexte extérieur à la conversation en cours, incluant des éléments tels que l’historique de la conversation, les préférences personnelles de l’utilisateur ou le cadre culturel. ‘Même dans les LLM, l’intention est de plus en plus intégrée aux réponses’, affirme Beuls. ‘Le hic, c’est qu’ils restent bloqués par ce système prédictif et ses limites.’

‘Le modèle linguistique développé par les chercheurs de la VUB et de l’UNamur n’est pas destiné à remplacer les modèles existants’, poursuit Van Eecke. ‘Il s’agit d’une nouvelle façon d’apprendre le langage, connectée aux ‘sens’ – autrement dit, aux capteurs – d’un ordinateur. Les modèles que nous développons, pourraient devenir une nouvelle génération de modèles linguistiques. C’est plutôt ainsi que nous le voyons. Mais peut-être les deux pourraient-ils fusionner à l’avenir. Car on le constate aussi chez les enfants: une fois qu’ils maîtrisent suffisamment une langue, on observe que, dans une certaine mesure, des mécanismes prédictifs jouent aussi dans leur cerveau. L’un ne remplace donc pas nécessairement l’autre. Alors que nous parlons, nous émettons constamment des hypothèses sur ce que nous pourrions dire ensuite. Sauf que ce n’est pas le cas au départ, ce n’est pas la base. Il y a donc un pont à lancer avec les modèles linguistiques existants, ce qui pourrait devenir intéressant au niveau applicatif. Mais nous devons d’abord partir d’une base reposant sur la communication interactive et à partir de là, nous pourrons passer à l’apprentissage statistique prédictif.’

Des robots qui connaissent leur monde

Un système d’IA capable d’apprendre une langue à partir de son environnement pourrait également être plus compatible avec la robotique, estiment les deux chercheurs. Si les robots – essentiellement des ordinateurs mobiles – peuvent désormais apprendre une langue grâce à leurs sens, ils se rapprocheront de l’embodied reasoning (raisonnement incarné) considéré comme une étape essentielle dans l’évolution des robots dotés de l’intelligence artificielle. ‘Les données utilisées par notre modèle sont des données de capteurs, et non du texte’, explique Van Eecke. ‘Il s’agit d’un apprentissage multimodal: le modèle puise ses informations dans diverses sources. Tout comme un humain apprend à comprendre et à appeler les choses grâce à ses sens. Savoir qu’une pomme est juteuse ne s’apprend pas par du texte ou des images, mais par l’expérience. Nous pensons donc que les futurs modèles linguistiques seront de plus en plus intégrés au monde grâce à des capteurs. Et oui, ils pourraient même finir par être intégrés à des robots. Un robot ne sera peut-être pas toujours connecté. Il devra élaborer ses propres plans de communication dans certaines situations. Dans ce cas, continuer à apprendre via ses capteurs sera une meilleure solution.’

Les recherches menées par Beuls et Van Eecke, et compilées dans leur article ‘Humans Learn Language from Situated Communicative Interactions. What about Machines?’, n’en sont qu’à leurs débuts. Des fonds sont recherchés pour des études complémentaires. Mais elles ont déjà suscité un vif intérêt au sein de la communauté mondiale de l’IA. ‘Nous avons présenté nos idées lors d’une conférence internationale de premier plan regroupant des experts en IA, et elles n’ont pas été considérées comme controversées’, poursuit Beuls. ‘Les idées que nous avons présentées, suscitent un grand intérêt. La seule question qui se pose maintenant, est la suivante: comment les faire évoluer? OpenAI, Google et Meta sont des entreprises qui pèsent des milliards de dollars et qui ont toutes investi dans l’approche statistique. Elles souhaitent naturellement poursuivre sur cette lancée. Mais dans une certaine mesure, c’est aussi une histoire qui va se terminer, car à un moment donné, toutes les données auront été utilisées.’

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Expertise Partenaire