Toute entreprise qui lance aujourd'hui une nouvelle technologie se doit de l'affubler de l'acronyme IA. Or la recherche fondamentale en IA ne se limite pas à estimer l'âge d'une personne ou à pouvoir distinguer un chien d'un chat. Il s'agit de mettre au point une intelligence artificielle capable de s'adapter en toutes circonstances et d'apprendre par elle-même à exécuter des tâches très complexes.
...

Toute entreprise qui lance aujourd'hui une nouvelle technologie se doit de l'affubler de l'acronyme IA. Or la recherche fondamentale en IA ne se limite pas à estimer l'âge d'une personne ou à pouvoir distinguer un chien d'un chat. Il s'agit de mettre au point une intelligence artificielle capable de s'adapter en toutes circonstances et d'apprendre par elle-même à exécuter des tâches très complexes. Karl Tuyls travaille depuis 2017 pour DeepMind et ce, depuis 2018 au départ de Paris. Précédemment, il avait notamment été professeur aux universités de Maastricht et de Liverpool ainsi que professeur invité à l'université de Louvain. Aujourd'hui, il est à la tête de l'équipe Game Theory de DeepMind, une société spécialisée en IA rachetée en 2014 par Google. Karl Tuyls: La Game Theory est une théorie économique relative aux décisions prises dans un contexte interactif. Il s'agit d'un environnement où plusieurs 'agents' interagissent, agents qui peuvent être artificiels ou humains. Cette théorie nous aide à prendre les bonnes décisions lors du déploiement de l'IA dans un contexte où l'on retrouve plusieurs IA ou simplement dans un environnement isolé avec un seul agent en phase d'apprentissage. Le jeu Breakout dans lequel on commande une barre est utilisée pour renvoyer une balle est un jeu à un seul agent. Mais si l'on fait intervenir plusieurs agents, il convient de tenir compte de beaucoup plus de facteurs. Tuyls: De très nombreux facteurs doivent en effet être pris en compte. Je suis convaincu que l'intelligence se développe au fur et à mesure de l'évolution, sachant que le contexte multisocial et le contexte social qui interagissent avec les personnes joue un rôle sans cesse plus important. Cette théorie du jeu est relativement récente, tandis que la théorie du jeu classique se concentre fort sur la recherche d'un équilibre. Par exemple l'équilibre Nash qui explique la manière dont une personne ou un agent doit se comporter idéalement en présence d'autres agents. On choisit alors une stratégie où le résultat attendu ou la récompense ne peut s'améliorer aussi longtemps que l'autre agent n'a pas modifié sa propre stratégie. Tuyls: La théorie du jeu classique est normative, elle définit la manière dont on doit se comporter de manière rationnelle. Un exemple à cet égard est le dilemme des prisonniers. Vous avez deux criminels, des 'agents' arrêtés par la police pour un délit qu'ils ont commis ensemble et qui sont mis dans des cellules séparées interrogés individuellement. Chaque criminel a deux choix: ne rien dire et espérer que son complice fera de même. C'est la stratégie coopératrice. S'ils s'entendent, ils se verront infliger la peine minimale. Mais l'un d'eux peut aussi collaborer avec la police et avouer. C'est la stratégie de la trahison. S'il avoue et que son complice ne le fait pas, il le condamne et devient libre. Cela crée une tension ou une tentation: choisit-on son propre profit ou opte-t-on pour l'aspect social et la collaboration? Tuyls: La théorie du jeu classique considère qu'il faut trahir et collaborer avec la police en dénonçant son complice. C'est l'équilibre Nash. Pourtant, la meilleure solution est en fait que les deux complices continuent à collaborer, même si la situation est risquée et ne représente pas l'équilibre Nash du jeu. Pourquoi la trahison/trahison est-elle un équilibre Nash? Si les deux choisissent de trahir et que je m'en tiens à cette stratégie alors que l'autre pas, il est impossible pour moi de m'améliorer. Et si vous optez pour la collaboration, vous serez encore moins bien. C'est la théorie du jeu classique. En soi, une telle situation ne permet guère d'avancer et même si l'équilibre Nash se révèle très important, il s'agit au plan statistique d'un 'one shot'. Il est impossible de prendre en compte des environnements changeants dans lesquels l'IA opère, ceux-ci étant en constante évolution en raison de circonstances extérieures ou d'actions prises par d'autres agents. Tuyls: Ainsi, un jeu informatique connu comme Starcraft est un environnement multi-agent où l'on ne sait pas forcément ce que fait l'autre et comment il modifie l'environnement, mais qui a un impact sur les décisions prises. C'est de l'information imparfaite. En fait, le trafic routier est un système multi-agent gigantesque. De nombreuses personnes veulent se rendre le matin à Bruxelles pour travailler. Si l'on entend à la radio qu'il y a un accident sur l'E19 et que l'on conseille comme itinéraire alternatif de prendre l'A12, que faites-vous? Tuyls: Exactement. Tuyls: Nos recherches se concentrent au croisement entre l'apprentissage par renforcement et la théorie du jeu, celle-ci nous permettant d'évaluer les décisions à certains moments du processus d'apprentissage pour en arriver ainsi à de meilleures décisions. L'IA apparaît plutôt comme une théorie du jeu dynamique. Tuyls: Le but est que ces systèmes soient auto-apprenants. C'est ainsi que le football est un système multi-agent sur lequel se concentrent de nombreuses recherches. D'autres agents, par ex. les adversaires, font des choses qui ne sont pas forcément contrôlables, mais sur lesquelles on voudrait anticiper. Comment entraîner des agents avec l'apprentissage par renforcement pour qu'ils soient capables de prendre les bonnes décisions? Tuyls: Notre vocation chez DeepMind est le développement de l'AGI ou 'artificial general intelligence', l'intelligence capable de gérer de très nombreuses tâches différentes et d'apprendre à anticiper des événements qui se produisent dans un certain environnement. Tuyls: En fait, les choses évoluent et de nouvelles découvertes débouchent sur de nouvelles recherches. L'une des pierres d'achoppement dans un environnement multi-agent est le fait de pouvoir entraîner des agents à bien exécuter certaines tâches tout en sachant qu'il ne faut pas oublier le curriculum, à savoir de commencer par des tâches faciles qui deviennent ensuite plus complexes. Par ailleurs, il faut s'interroger sur le fait de savoir comment déterminer quelles sont les bonnes choses à apprendre. Jusqu'ici, l'IA s'est surtout focalisée sur 'the policy problem' puisque ce que l'on apprend comme IA est la 'policy'. Mais l'on ne s'intéresse guère à ce que l'on appelle le 'problem problem'. Comment présenter de bons problèmes? Quelles sont les bonnes tâches, non pas dans des domaines existants comme les échecs ou le jeu Go, mais concevoir de nouveaux domaines pour développer une IA puissante? Tuyls: Exactement. Tuyls: Je travaille depuis longtemps sur le développement de l'IA basé sur ce que la nature nous montre. A l'époque, j'étudiais la manière dont l'intelligence apparaît dans des colonies de fourmis par exemple. Une colonie de fourmis constitue un système multi-agent particulièrement robuste. Si l'on retire quelques fourmis, la colonie continue à fonctionner. De très nombreux systèmes mis en place par l'homme n'évoluent pourtant pas de la même manière. En effet, si l'on retire quelques pièces, l'ensemble s'effondre. C'est alors que nous avons notamment étudié la manière d'appliquer à l'être humain les principes d'une telle colonie. Pour ce qui est des abeilles, la manière dont elles cherchent leur nourriture est extrêmement aléatoire. En revanche, la façon de ramener la nourriture à la ruche est particulièrement efficace. Comment procèdent-elles et peut-on appliquer ces principes à des robots d'IA? C'est à l'époque de l'Université de Maastricht que nous nous sommes penchés sur les systèmes de robotique. Est-il possible par exemple de faire travailler ensemble toute une série de petits robots qui pourraient continuer à fonctionner comme un tout si l'un d'entre eux ou plusieurs s'arrêtaient? Cela pourrait être intéressant par exemple en cas de voyage sur Mars. En effet, l'intelligence des abeilles ne repose pas sur l'individu. Cet individu suit quelques règles très simples, mais si tous les robots pris individuellement les suivent, il se développe une sorte d'émergence, une intelligence au niveau du groupe, ce qui est particulièrement intéressant. Tuyls: Nous y sommes arrivés jusqu'à un certain niveau. Dans les simulations, cela réussit très bien, mais dans la robotique, beaucoup dépend de la qualité du matériel et des capteurs. Cela dit, nous avons mené ces expériences avec comme objectif un groupe de 100 robots, ce qui était énorme à l'époque. Or dans certains domaines, le matériel de l'époque n'était peut-être pas suffisant. Tuyls: Très souvent, nous pourrions apprendre comment l'intelligence s'est développée et comment fonctionne l'évolution. Dans nos recherches récentes, nous essayons de créer des agents d'apprentissage par renforcement qui soient plus sociaux. C'est ce que l'on constate dans les essaims d'abeilles ou les colonies de fourmis, mais dans notre domaine, on cherche surtout à afficher un comportement plus humain. C'est ainsi que nous voulons des agents qui soient honnêtes. Mais qu'est-ce que l'honnêteté? Cette notion fait l'objet de très nombreuses recherches entre différentes cultures en faisant jouer à des personnes des jeux d'ultimatum. Supposons que vous receviez 100 ? que vous devez distribuer entre vous et moi. Vous pouvez dire: "Karl, je te donne 20 ? et j'en garde 80. ' Vous recevez davantage, mais si je refuse, nous ne recevrons rien aucun des deux. La théorie du jeu classique part du principe qu'il faut faire l'offre la plus basse, par exemple 1 ? et que je dois l'accepter, car c'est mieux que rien. Mais ce n'est pas juste. Cela a été étudié par des économistes du comportement, tandis que dans bon nombre de cultures, on constate qu'une offre de 30-40 et même 50 est acceptable. Et dans de nombreuses cultures, l'offre la plus basse sera aussi refusée. C'est intéressant, mais comment faire en sorte d'apprendre à des agents ce qu'est la notion de juste? Tout comme dans certaines cultures, les gens l'apprennent de leurs pairs. Tuyls: Eh bien il semble que le concept de 'fairness' soit relativement universel dans certaines cultures, du moins dans le contexte des jeux d'ultimatum. Sauf que telle culture accepte 30 ? et telle autre 20. Aucun groupe de population ne suit à cet égard la théorie du jeu classique. Tuyls: Cette puissance joue un rôle essentiel. On se posait déjà beaucoup de questions sur l'IA dans les années '70, mais la puissance informatique n'était tout simplement pas disponible. Durant la dernière décennie, le volume de données et la puissance de calcul ont joué un rôle majeur et permis d'améliorer l'apprentissage en repoussant certaines frontières de l'IA. Dans ma thèse de doctorat au début des années 2000, je me suis intéressé à l'apprentissage multi-agent, mais la capacité de traitement pour ce faire n'existait pas. De nombreux algorithmes conçus voici 15 à 20 ans sont désormais réinventés, mais dans le contexte des réseaux neuronaux profonds, sachant que la puissance et les volumes sont désormais disponibles. Tuyls: Faire des prédictions est très délicat. Il existe encore certains aspects du cerveau humain que nous ne comprenons pas bien et qui sont particulièrement importants. D'un autre côté, il est essentiel de garder le contrôle humain sur l'IA et de définir un cadre précis. Certes, nous serons plus avancés d'ici 50 ans, mais il est très difficile de prévoir le moment où nous atteindrons l'AGI. En tout cas, je ne me risquerais pas à évoquer une échéance précise. L'évolution touche également l'industrie. Les premiers bras robotisés sont très statiques et exécutent des tâches répétitives. Mais récemment, on a vu apparaître des bras de robot mobiles capables de collaborer avec des humains. Cela exige beaucoup de recherches, mais nous allons assister à de grands progrès dans un proche avenir. Tuyls: Pour moi personnellement, il s'agit du 'problème-problème'. C'est un facteur essentiel sur la voie de l'AGI. Nous pouvons déjà l'aborder de manière assez abstraite, mais comment le faire avec des tâches et environnements concrets. D'où viennent-ils? Il s'agit là d'une question essentielle que nous devons résoudre. Si vous y parvenons, nous aurons fait un pas en avant majeur. Tuyls: Exactement. Et ne pas considérer que l'environnement dans lequel il apprend est une donnée exacte afin de ne pas développer la meilleure IA pour un seul environnement spécifique. En l'occurrence, la tâche est énorme. La langue est également un élément. Comment la langue se développe-t-elle et si des agents doivent résoudre un problème, comment peuvent-ils concevoir une langue pour dialoguer? Est-il possible d'améliorer encore l'IA dans un contexte multi-agent pour communiquer avec l'homme? Des défis majeurs nous attendent encore au niveau du langage naturel, de la grammaire, de la signification et de la sémantique, sans parler du passage d'une langue à une autre. Ici également, des progrès doivent être réalisés.