A la recherche de l’algorithme le plus intelligent
Quelle est l’évolution de l’IA? Data News s’est entretenu avec Karl Tuyls, chercheur en IA et scientifique en informatique. Ce Belge résidant à Paris dirige l’équipe Game Theory de la filiale de Google DeepMind.
Toute entreprise qui lance aujourd’hui une nouvelle technologie se doit de l’affubler de l’acronyme IA. Or la recherche fondamentale en IA ne se limite pas à estimer l’âge d’une personne ou à pouvoir distinguer un chien d’un chat. Il s’agit de mettre au point une intelligence artificielle capable de s’adapter en toutes circonstances et d’apprendre par elle-même à exécuter des tâches très complexes.
Karl Tuyls travaille depuis 2017 pour DeepMind et ce, depuis 2018 au départ de Paris. Précédemment, il avait notamment été professeur aux universités de Maastricht et de Liverpool ainsi que professeur invité à l’université de Louvain. Aujourd’hui, il est à la tête de l’équipe Game Theory de DeepMind, une société spécialisée en IA rachetée en 2014 par Google.
Que faut-il entendre par la Game Theory dont votre équipe s’occupe?
Karl Tuyls: La Game Theory est une théorie économique relative aux décisions prises dans un contexte interactif. Il s’agit d’un environnement où plusieurs ‘agents’ interagissent, agents qui peuvent être artificiels ou humains. Cette théorie nous aide à prendre les bonnes décisions lors du déploiement de l’IA dans un contexte où l’on retrouve plusieurs IA ou simplement dans un environnement isolé avec un seul agent en phase d’apprentissage. Le jeu Breakout dans lequel on commande une barre est utilisée pour renvoyer une balle est un jeu à un seul agent. Mais si l’on fait intervenir plusieurs agents, il convient de tenir compte de beaucoup plus de facteurs.
Comment déterminer quelles sont les bonnes choses à apprendre? Et comment présenter de bons problèmes pour développer une IA puissante?
Donc, quelles décisions prendre quand. Mais cela devient plus complexe à mesure que le nombre de variables augmente.
Tuyls: De très nombreux facteurs doivent en effet être pris en compte. Je suis convaincu que l’intelligence se développe au fur et à mesure de l’évolution, sachant que le contexte multisocial et le contexte social qui interagissent avec les personnes joue un rôle sans cesse plus important. Cette théorie du jeu est relativement récente, tandis que la théorie du jeu classique se concentre fort sur la recherche d’un équilibre. Par exemple l’équilibre Nash qui explique la manière dont une personne ou un agent doit se comporter idéalement en présence d’autres agents. On choisit alors une stratégie où le résultat attendu ou la récompense ne peut s’améliorer aussi longtemps que l’autre agent n’a pas modifié sa propre stratégie.
La problématique est donc de réagir au mieux en fonction de la manière dont un autre agent intervient.
Tuyls: La théorie du jeu classique est normative, elle définit la manière dont on doit se comporter de manière rationnelle. Un exemple à cet égard est le dilemme des prisonniers. Vous avez deux criminels, des ‘agents’ arrêtés par la police pour un délit qu’ils ont commis ensemble et qui sont mis dans des cellules séparées interrogés individuellement. Chaque criminel a deux choix: ne rien dire et espérer que son complice fera de même. C’est la stratégie coopératrice. S’ils s’entendent, ils se verront infliger la peine minimale. Mais l’un d’eux peut aussi collaborer avec la police et avouer. C’est la stratégie de la trahison. S’il avoue et que son complice ne le fait pas, il le condamne et devient libre. Cela crée une tension ou une tentation: choisit-on son propre profit ou opte-t-on pour l’aspect social et la collaboration?
Et quel est le meilleur choix?
Tuyls: La théorie du jeu classique considère qu’il faut trahir et collaborer avec la police en dénonçant son complice. C’est l’équilibre Nash. Pourtant, la meilleure solution est en fait que les deux complices continuent à collaborer, même si la situation est risquée et ne représente pas l’équilibre Nash du jeu. Pourquoi la trahison/trahison est-elle un équilibre Nash? Si les deux choisissent de trahir et que je m’en tiens à cette stratégie alors que l’autre pas, il est impossible pour moi de m’améliorer. Et si vous optez pour la collaboration, vous serez encore moins bien. C’est la théorie du jeu classique. En soi, une telle situation ne permet guère d’avancer et même si l’équilibre Nash se révèle très important, il s’agit au plan statistique d’un ‘one shot’. Il est impossible de prendre en compte des environnements changeants dans lesquels l’IA opère, ceux-ci étant en constante évolution en raison de circonstances extérieures ou d’actions prises par d’autres agents.
Une colonie de fourmis constitue un système multi-agent particulièrement robuste. Si l’on retire quelques fourmis, la colonie continue à fonctionner.
Comment cela se traduit-il dans la vraie vie?
Tuyls: Ainsi, un jeu informatique connu comme Starcraft est un environnement multi-agent où l’on ne sait pas forcément ce que fait l’autre et comment il modifie l’environnement, mais qui a un impact sur les décisions prises. C’est de l’information imparfaite. En fait, le trafic routier est un système multi-agent gigantesque. De nombreuses personnes veulent se rendre le matin à Bruxelles pour travailler. Si l’on entend à la radio qu’il y a un accident sur l’E19 et que l’on conseille comme itinéraire alternatif de prendre l’A12, que faites-vous?
Si tout le monde suit ce conseil et prend l’A12, la circulation sur l’E19 finira par être plus fluide.
Tuyls: Exactement.
Comment mettez-vous en oeuvre les conclusions de cette théorie du jeu?
Tuyls: Nos recherches se concentrent au croisement entre l’apprentissage par renforcement et la théorie du jeu, celle-ci nous permettant d’évaluer les décisions à certains moments du processus d’apprentissage pour en arriver ainsi à de meilleures décisions. L’IA apparaît plutôt comme une théorie du jeu dynamique.
Votre objectif est-il dès lors d’en arriver à un système ou algorithme capable de traiter un maximum de concepts et de théories afin que le système apprenne par lui-même ou s’adapte lorsque des paramètres changent?
Tuyls: Le but est que ces systèmes soient auto-apprenants. C’est ainsi que le football est un système multi-agent sur lequel se concentrent de nombreuses recherches. D’autres agents, par ex. les adversaires, font des choses qui ne sont pas forcément contrôlables, mais sur lesquelles on voudrait anticiper. Comment entraîner des agents avec l’apprentissage par renforcement pour qu’ils soient capables de prendre les bonnes décisions?
Vos recherches visent à entraîner pour prendre les bonnes décisions ou les meilleures décisions?
Tuyls: Notre vocation chez DeepMind est le développement de l’AGI ou ‘artificial general intelligence’, l’intelligence capable de gérer de très nombreuses tâches différentes et d’apprendre à anticiper des événements qui se produisent dans un certain environnement.
Un tel processus s’inscrit-il dans un cadre particulier? Comment mène-t-on de telles recherches?
Tuyls: En fait, les choses évoluent et de nouvelles découvertes débouchent sur de nouvelles recherches. L’une des pierres d’achoppement dans un environnement multi-agent est le fait de pouvoir entraîner des agents à bien exécuter certaines tâches tout en sachant qu’il ne faut pas oublier le curriculum, à savoir de commencer par des tâches faciles qui deviennent ensuite plus complexes.
Par ailleurs, il faut s’interroger sur le fait de savoir comment déterminer quelles sont les bonnes choses à apprendre. Jusqu’ici, l’IA s’est surtout focalisée sur ‘the policy problem’ puisque ce que l’on apprend comme IA est la ‘policy’. Mais l’on ne s’intéresse guère à ce que l’on appelle le ‘problem problem’. Comment présenter de bons problèmes? Quelles sont les bonnes tâches, non pas dans des domaines existants comme les échecs ou le jeu Go, mais concevoir de nouveaux domaines pour développer une IA puissante?
Les blocs de construction pour concevoir des systèmes qui auto-apprennent et anticipent?
Tuyls: Exactement.
Vous avez été précédemment professeur à l’université de Maastricht où vous avez fondé Swarmlab. Que peut-on apprendre des abeilles et des fourmis pour l’appliquer dans l’informatique?
Tuyls: Je travaille depuis longtemps sur le développement de l’IA basé sur ce que la nature nous montre. A l’époque, j’étudiais la manière dont l’intelligence apparaît dans des colonies de fourmis par exemple.
Une colonie de fourmis constitue un système multi-agent particulièrement robuste. Si l’on retire quelques fourmis, la colonie continue à fonctionner. De très nombreux systèmes mis en place par l’homme n’évoluent pourtant pas de la même manière. En effet, si l’on retire quelques pièces, l’ensemble s’effondre. C’est alors que nous avons notamment étudié la manière d’appliquer à l’être humain les principes d’une telle colonie. Pour ce qui est des abeilles, la manière dont elles cherchent leur nourriture est extrêmement aléatoire. En revanche, la façon de ramener la nourriture à la ruche est particulièrement efficace. Comment procèdent-elles et peut-on appliquer ces principes à des robots d’IA?
C’est à l’époque de l’Université de Maastricht que nous nous sommes penchés sur les systèmes de robotique. Est-il possible par exemple de faire travailler ensemble toute une série de petits robots qui pourraient continuer à fonctionner comme un tout si l’un d’entre eux ou plusieurs s’arrêtaient? Cela pourrait être intéressant par exemple en cas de voyage sur Mars. En effet, l’intelligence des abeilles ne repose pas sur l’individu. Cet individu suit quelques règles très simples, mais si tous les robots pris individuellement les suivent, il se développe une sorte d’émergence, une intelligence au niveau du groupe, ce qui est particulièrement intéressant.
Etes-vous parvenu à la traduire au niveau de machines?
Tuyls: Nous y sommes arrivés jusqu’à un certain niveau. Dans les simulations, cela réussit très bien, mais dans la robotique, beaucoup dépend de la qualité du matériel et des capteurs. Cela dit, nous avons mené ces expériences avec comme objectif un groupe de 100 robots, ce qui était énorme à l’époque. Or dans certains domaines, le matériel de l’époque n’était peut-être pas suffisant.
Devrions-nous en tant que société nous intéresser davantage à l’esprit d’essaim?
Tuyls: Très souvent, nous pourrions apprendre comment l’intelligence s’est développée et comment fonctionne l’évolution. Dans nos recherches récentes, nous essayons de créer des agents d’apprentissage par renforcement qui soient plus sociaux. C’est ce que l’on constate dans les essaims d’abeilles ou les colonies de fourmis, mais dans notre domaine, on cherche surtout à afficher un comportement plus humain. C’est ainsi que nous voulons des agents qui soient honnêtes. Mais qu’est-ce que l’honnêteté? Cette notion fait l’objet de très nombreuses recherches entre différentes cultures en faisant jouer à des personnes des jeux d’ultimatum.
Supposons que vous receviez 100 ? que vous devez distribuer entre vous et moi. Vous pouvez dire: “Karl, je te donne 20 ? et j’en garde 80. ‘ Vous recevez davantage, mais si je refuse, nous ne recevrons rien aucun des deux.
La théorie du jeu classique part du principe qu’il faut faire l’offre la plus basse, par exemple 1 ? et que je dois l’accepter, car c’est mieux que rien. Mais ce n’est pas juste. Cela a été étudié par des économistes du comportement, tandis que dans bon nombre de cultures, on constate qu’une offre de 30-40 et même 50 est acceptable. Et dans de nombreuses cultures, l’offre la plus basse sera aussi refusée. C’est intéressant, mais comment faire en sorte d’apprendre à des agents ce qu’est la notion de juste? Tout comme dans certaines cultures, les gens l’apprennent de leurs pairs.
Sans quoi vous aurez un agent qui s’adapte très bien à telle culture mais pas à telle autre.
Tuyls: Eh bien il semble que le concept de ‘fairness’ soit relativement universel dans certaines cultures, du moins dans le contexte des jeux d’ultimatum. Sauf que telle culture accepte 30 ? et telle autre 20. Aucun groupe de population ne suit à cet égard la théorie du jeu classique.
L’évolution de l’IA se fait par vagues. Dans les années ’70, l’obstacle majeur était le manque de puissance de calcul, alors qu’aujourd’hui, cette puissance est virtuellement illimitée dans le cloud. Cela a-t-il un impact sur le développement de l’IA?
Tuyls: Cette puissance joue un rôle essentiel. On se posait déjà beaucoup de questions sur l’IA dans les années ’70, mais la puissance informatique n’était tout simplement pas disponible. Durant la dernière décennie, le volume de données et la puissance de calcul ont joué un rôle majeur et permis d’améliorer l’apprentissage en repoussant certaines frontières de l’IA.
Dans ma thèse de doctorat au début des années 2000, je me suis intéressé à l’apprentissage multi-agent, mais la capacité de traitement pour ce faire n’existait pas. De nombreux algorithmes conçus voici 15 à 20 ans sont désormais réinventés, mais dans le contexte des réseaux neuronaux profonds, sachant que la puissance et les volumes sont désormais disponibles.
Si l’on se projette 30 à 40 ans dans le futur, verra-t-on déjà émerger des systèmes d’IA hyper-efficaces et très proches du comportement humain? Ou sera-ce encore prématuré?
Tuyls: Faire des prédictions est très délicat. Il existe encore certains aspects du cerveau humain que nous ne comprenons pas bien et qui sont particulièrement importants. D’un autre côté, il est essentiel de garder le contrôle humain sur l’IA et de définir un cadre précis. Certes, nous serons plus avancés d’ici 50 ans, mais il est très difficile de prévoir le moment où nous atteindrons l’AGI. En tout cas, je ne me risquerais pas à évoquer une échéance précise.
L’évolution touche également l’industrie. Les premiers bras robotisés sont très statiques et exécutent des tâches répétitives. Mais récemment, on a vu apparaître des bras de robot mobiles capables de collaborer avec des humains. Cela exige beaucoup de recherches, mais nous allons assister à de grands progrès dans un proche avenir.
Quels autres obstacles ou points d’interrogation voyez-vous encore? Certaines recherches sur votre radar vont-elles se traduire par une percée majeure?
Tuyls: Pour moi personnellement, il s’agit du ‘problème-problème’. C’est un facteur essentiel sur la voie de l’AGI. Nous pouvons déjà l’aborder de manière assez abstraite, mais comment le faire avec des tâches et environnements concrets. D’où viennent-ils? Il s’agit là d’une question essentielle que nous devons résoudre. Si vous y parvenons, nous aurons fait un pas en avant majeur.
Alimenter le système en données précises pour son propre développement?
Tuyls: Exactement. Et ne pas considérer que l’environnement dans lequel il apprend est une donnée exacte afin de ne pas développer la meilleure IA pour un seul environnement spécifique. En l’occurrence, la tâche est énorme. La langue est également un élément. Comment la langue se développe-t-elle et si des agents doivent résoudre un problème, comment peuvent-ils concevoir une langue pour dialoguer? Est-il possible d’améliorer encore l’IA dans un contexte multi-agent pour communiquer avec l’homme?
Des défis majeurs nous attendent encore au niveau du langage naturel, de la grammaire, de la signification et de la sémantique, sans parler du passage d’une langue à une autre. Ici également, des progrès doivent être réalisés.
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici