Le contexte est important. La phrase " Sophie sent la rose " peut tout aussi bien signifier que la jeune fille Sophie tient une rose qu'elle sent ou que Sophie répand une odeur de rose en fonction du contexte dans lequel la phrase est citée. En général, les gens comprennent la signification presque de manière instinctive. Il s'agit d'ailleurs d'un domaine où l'homme est très bon, ce qui n'est pas encore le cas des ordinateurs. Entre-temps, l'apprentissage machine a permis d'apprendre aux logiciels à analyser les modèles dans des images, et reconnaître notamment les visages humains. Mais pour s'améliorer encore, ils doivent appréhender le contexte de ces images. Pas étonnant dès lors que l'apprentissage profond contextuel soit en pleine effervescence.

Les systèmes d'apprentissage profond sont en train d'évoluer pour passer de savants idiots, des systèmes qui connaissent très bien une seule chose, à des systèmes à l'intelligence plus vaste.

Réseaux neuronaux et cerveau

La notion de 'contextual deep learning' porte en général sur une forme d'apprentissage machine qui s'appuie sur des réseaux neuronaux, lesquels sont en somme basés sur le cerveau humain. Notre cerveau analyse le monde qui nous entoure sur une base quasi-permanente pour établir des liens entre ce que nos yeux observent. Si vous voyez par la fenêtre quelqu'un avec un parapluie, vous saurez, sans avoir vu les gouttes d'eau, qu'il pleut probablement. Lorsque nous voyons quelque chose, nous établissons des liens entre chaque objet observé, sur base de ce que nous avons appris dans le passé. Et en Belgique, 'pluie + parapluie' est un rapport que nous rencontrons souvent.

Notre cerveau essaie donc de comprendre ce que nos yeux observent et ces notions sont souvent apprises par la répétition. Nous apprenons aux enfants ce qu'est une balle en leur présentant cette balle et en précisant (voire en répétant de nombreuses fois) qu'il s'agit d'une balle. Et tout fonctionne ainsi dans l'environnement de l'enfant : les nuages, le chien, le chat, la grand-mère, le livre, etc.

Apprendre à l'ordinateur à voir le monde

Il n'est dès lors pas stupide d'apprendre aux ordinateurs à reconnaître les choses en leur présentant ces images de millions de fois et à répéter la leçon jusqu'à ce qu'ils commencent à distinguer des modèles. Un animal à poils avec cette forme spécifique, ces oreilles pointues, ces yeux et ces narines : sans doute un chat. Et le contexte de ce chat est souvent un peu intégré dans son environnement, estime Jonathan Berte, CEO de Robovision, spécialisée dans la reconnaissance d'images. " L'apprentissage profond est en somme contextuel, explique-t-il. Parce que la technologie va rechercher elle-même des éléments dans ce contexte. Lorsqu'une image apprend par exemple l'environnement d'un piéton ou d'un chat, celle-ci devient une partie d'un algorithme. " Mais cela ne signifie pas encore que la machine recherche véritablement ce contexte.

A moins de se tourner vers les réseaux convolutionnels. Il s'agit d'un terme encore peu connu pour signifier la structure des réseaux neuronaux les plus fréquemment utilisés pour reconnaître des images. En l'occurrence, le réseau neuronal 'simple' va transformer l'input qu'il reçoit à l'aide d'une série de couches cachées et ainsi l'analyser. Chacune de ces couches se compose d'un ensemble de neurones, tandis que chaque neurone de la couche est relié à chaque neurone de la couche suivante. La couche la plus basse est la couche de sortie, celle chargée de faire toutes les prévisions.

Pour un réseau neuronal convolutionnel, des couches supplémentaires sont créées. " Les couches convolutionnelles peuvent être considérées comme des mini-yeux qui scannent l'information et recherchent toujours plus mieux l'aiguille dans une botte de foin ", explique Jonathan Berte. Dans ce type de réseau, tous les neurones ne sont pas forcément reliés à ceux de la couche suivante. Ils sont groupés en petites régions et sont ainsi plus ciblés. " Il s'agit d'un filtre que l'on applique sur la matrice. Celui-ci va d'abord commencer à tout détecter et à chaque itération, les filtres s'amélioreront. Si un tel filtre doit détecter des chats, il sera stimulé à 'miner' les éléments typiques d'un chat. Les oreilles, les moustaches, etc. Ces caractéristiques félines sont analysées et affinées pour obtenir des corrélations. Mais pour détecter ces chats, il faut également un contexte, car un chat sur la mer, c'est assez rare, sachant qu'un réseau neuronal profond observe également ce contexte. "

En conséquence, ce type de réseaux peut plus facilement être 'entraîné'. En termes techniques, il est question de 'transfer training'. " Si vous apprenez à un réseau à connaître tous les animaux possibles, ce réseau sera mieux à même d'apprendre à reconnaître d'autres animaux, poursuit Berte. Si vous formez l'ordinateur à tous les mammifères, le détecteur oculaire sera relativement bon pour les chats, mais ne devra plus repartir de zéro pour les chiens. " Les concepts de 'patte', 'queue' et 'nez' sont déjà maîtrisés, raisonnera l'ordinateur, qui apprendra plus facilement à reconnaître les autres animaux ayant des caractéristiques similaires.

Au-delà de la reconnaissance d'images

La plupart des applications d'IA et d'apprentissage machine émanent du domaine de la reconnaissance d'images, mais ne se limitent pas à ce seul secteur, insiste Berte. " Cette technologie fonctionne en principe pour pratiquement tous les réseaux spatio-temporels. Songez à un réseau social. Si vous êtes un criminel et que tous vos mauvais amis sont aussi sur ce réseau, la machine va comprendre que les personnes se trouvant dans ce contexte sont potentiellement semblables. Ou tout au moins qu'elles vivent dans un milieu similaire. " Vous êtes-vous déjà demandé comment Facebook pouvait prévoir votre emploi, votre formation ou vos tendances avant même que vous ne les communiquez ? Eh bien voilà ! Les gens partageant les mêmes centres d'intérêt se rassemblent.

Le vecteur d'information ne se tarit jamais.

Il faut aussi savoir que ce type de technologie est aussi, en partie du moins, à la base de la soif d'informations de géants tels que Google ou, à nouveau, Facebook. Leur but n'est pas forcément de prévoir cet emploi ou cette tendance, mais surtout le shampoing ou le smartphone que vous comptez acheter. " Ce vecteur d'information ne se tarit jamais, poursuit Berte. Si l'on considère une personne comme un vecteur d'information - telle est son sexe, sa taille, etc. -, il est possible d'enrichir ces informations et de les associer, et cela n'a pas de fin. En tant que personne, vous bougez dans une ville et allez au café, ce qui induit certains comportements. Il est possible d'y ajouter tout ce contexte.

Direction : l'intelligence générale

Mais quelle est la finalité ? Comme le contexte est important et sachant que plus il y a de contexte, plus les liens sont établis, plus la machine devient intelligente. Alors que les chercheurs utilisaient autrefois l'apprentissage machine pour apprendre à reconnaître un chat, pour devoir ensuite recommencer avec le chien, les couches convolutionnelles offrent à l'IA la possibilité d'apprendre plus rapidement de nouvelles choses. " C'est une étape sur la voie de l'intelligence artificielle générale ou AIG, estime toujours Berte. Les systèmes d'apprentissage profond sont en train d'évoluer pour passer de savants idiots, des systèmes qui connaissent très bien une seule chose, à des systèmes à l'intelligence plus vaste, sachant qu'un tel système plus large tient toujours compte du contexte plus vaste plutôt que d'une expertise dans un seul domaine. Si un bateau se trouve au milieu d'une ville, il s'agit là pour nous d'une chose étrange, mais le réseau d'apprentissage profond actuel ne va pas se poser de question. En contextualisant davantage, ces systèmes de 'deep learning' évoluent vers un bon sens humain. Un tel système peut expliquer pourquoi il fait certaines démarches. "

Finira-t-on donc par apprendre à l'IA à être plus intelligente que l'homme ? " L'IA est déjà plus intelligente que l'homme dans de nombreux domaines, mais l'être humain reste beaucoup plus intelligent par son bon sens pratique. Mais en prenant davantage en compte le contexte, ces systèmes peuvent devenir plus performants. "

© Getty Images