Pieter Abbeel: « L’apprentissage profond a marqué un tournant majeur »
Pieter Abbeel est depuis de nombreuses années à la tête du Robot Learning Lab à l’université de Berkeley, il a été l’un des premiers employés d’OpenAI, l’entreprise derrière ChatGPT et a aussi été à l’initiative de Covariant, une entreprise qui construit des robots multi-usages.
Le Robot Learning Lab de Berkeley a appris voici quelques années à des robots à plier des essuie-mains. Où en est cette recherche aujourd’hui ?
PIETER ABBEEL: Il y a deux manières naturelles d’envisager le progrès en matière de recherche. On peut y voir d’une part un défi dont la portée va au-delà des systèmes actuels. Songez à un robot qui plie le linge ou peut retirer le linge du lave-linge. A ce niveau, il est question de chercher à progresser par petites étapes.
L’autre manière de voir consiste à s’intéresser aux frontières de la technologie. Jusqu’en 2012, une large part du travail de mon labo portait sur des avancées incrémentales avec comme cible un tel défi. Or cette même année, Geoffrey Hinton et ses étudiants à l’université de Toronto ont montré qu’il était possible grâce à l’apprentissage profond d’apprendre à un grand réseau neuronal de reconnaître des images avec un très haut niveau de qualité. En alimentant ce réseau avec de gros volumes de données, il est possible de lui apprendre à reconnaître ce qui se cache derrière les données. Cela a marqué un tournant majeur.
Vous êtes donc passés à l’apprentissage profond ?
ABBEEL: Il est apparu clairement que cette approche permettrait à court terme d’enregistrer les progrès les plus importants. Avec l’apprentissage profond, on parvient en somme à entraîner un réseau neuronal à reconnaître des modèles dans des données. Pour les robots, nous avons utilisé une technique similaire. C’est ainsi que l’on peut se doter d’un casque de RV et ‘commander’ le robot grâce à des contrôleurs, de telle sorte que ce robot pourra ensuite apprendre comment il doit réagir dans telle ou telle situation. C’est de l’apprentissage par imitation. Et ces données peuvent ensuite être utilisées pour entraîner un réseau neuronal.
C’est ainsi que le robot exécute 100 fois la même tâche, par exemple se saisir d’une pomme et la poser sur une assiette. Il s’agit là de tâches relativement simples, mais il est intéressant de noter que grâce à l’apprentissage profond, cet apprentissage peut être relativement rapide. Ce type de formation offre d’ailleurs une fiabilité de l’ordre de 80 à 90%. Certes, on veut en principe atteindre une fiabilité supérieure encore, jusqu’à 99%. C’est pourquoi nous nous intéressons notamment à l’apprentissage par renforcement profond. Dans ce cas précis, l’IA va apprendre de ses propres erreurs, exactement comme le fait l’homme. Le robot collecte ses propres données, et personne ne doit lui dire ce qui est bon ou mauvais, mais simplement lui préciser si la tentative était bonne. C’est un peu comme un score dans un jeu vidéo.
Vous avez vous-même travaillé chez OpenAI, l’entreprise derrière ChatGPT. Comment analysez-vous l’impact de cette technologie sur le secteur ?
ABBEEL: OpenAI a été lancé par l’un de mes étudiants, John Schulman, fin 2015. J’ai été l’un des premiers employés, ensemble avec quelques-uns de mes étudiants. J’y ai travaillé deux ans environ. Et dès les premiers temps d’OpenAI, il est apparu clairement que l’avenir de l’IA se situait dans de très gros volumes de données, parce que l’intelligence était induite par de tels volumes. Tout est une question de découvrir des modèles dans les données.
« Avant 2012, la norme voulait que rien ne fonctionne comme on le désirait. Mais désormais, cette norme est que tout ira bien. »
Mais si l’on voulait avoir de grands jeux de données fin 2015, début 2016, il fallait collecter des données et les doter d’annotations spécifiques en fonction de l’objectif que l’on s’était fixé. Si vous vouliez construire un système linguistique capable de reconnaître automatiquement s’il y avait un ton positif ou négatif dans un article ou si vous vouliez traduire d’une langue dans une autre, il fallait collecter des données spécifiques pour cet objectif précis. Mais on se trouvait confronté à un goulet d’étranglement en termes de vitesse et de coûts.
L’IA générative, en revanche, vous permet d’utiliser chaque donnée. Vous entraînez votre réseau simplement pour créer des données qui correspondent aux données de votre jeu de données. Pour des langues, vous prenez par exemple des textes sur l’internet et entraînez votre réseau neuronal à prévoir le mot suivant, sur la base des mots précédents dans l’article. En fait, vous apprenez au réseau neuronal à imiter les données de votre jeu de données. Personne ne doit au préalable faire d’annotations, ce qui fait que le processus est ainsi meilleur marché en termes d’apport humain. En fait, cet apport a déjà été réalisé à l’avance puisque toutes ces données étaient déjà sur l’internet.
C’est ce que nous appelons désormais l’IA générative et il s’agissait de l’une des grandes technologies dont nous disposions pour réaliser des progrès. Par ailleurs, il était clair qu’il fallait disposer de l’apprentissage par renforcement, dans la mesure où il s’agit d’une manière pour l’IA d’obtenir du feedback sur la qualité. Ces deux éléments vont représenter l’avenir de l’IA.
Est-ce également ce qu’a fait ChatGPT notamment ?
ABBEEL: ChatGPT est de l’IA générative combinée à de l’apprentissage par renforcement. C’est ce qui lui permet de fonctionner. Durant des années, on s’est limité à de l’IA purement générative, à savoir simplement prévoir le mot suivant basé sur des textes de l’internet. Mais le problème était que le système ne faisait pas ce que l’on voulait qu’il fasse. Si l’on demandait simplement ‘Comment fait-on une omelette ?’ et que le système réponde ‘Comment fait-on un œuf cuit dur ?’ ou ‘Comment cuire du lard ?’. On peut comprendre que ces idées sont proches l’une de l’autre sur l’internet dans des pages de recettes, puis que l’on clique plus avant pour obtenir la recette proprement dite. Mais ce n’est pas ce que l’on attend d’une IA.
« On peut voir l’IA comme la technologie la plus puissante qui existe actuellement. »
Fin 2022, John Schulman a donc décidé de combiner l’apprentissage par renforcement et l’IA générative. Une fois que l’apprentissage génératif est réalisé, vous faites communiquer l’IA avec des personnes et ceux-ci donnent une cotation aux conversations. Plus spécifiquement, l’IA devrait donner deux réponses et la personne devrait indiquer laquelle des deux est meilleure à ses yeux. Il s’agissait donc de feedback. C’est ce processus qui a donné naissance à l’agent conversationnel ChatGPT.
La collecte de très gros volumes de données pour la construction de LLM induit également des questions éthiques, par exemple en matière de droits d’auteur. Comment envisagez-vous cette question en tant que chercheur en informatique ?
ABBEEL: La construction de l’IA revêt de nombreux aspects différents. C’est ainsi qu’il est possible de bâtir de l’IA à des fins commerciales, pour gagner de l’argent, mais également de faire de la recherche pure en IA. Dans ce dernier cas, on s’intéresse aux mécanismes susceptibles de supporter la prochaine génération d’IA. Et dans ce contexte particulier, il convient de laisser toutes les portes ouvertes afin de permettre à d’autres de poursuivre le travail.
Je pense que lorsque l’on souhaite commercialiser une technologie, il convient de s’interroger sur la manière de compenser les auteurs, compte tenu de leur contribution au succès de l’IA. Seuls trois acteurs interviennent : celui qui construit l’IA, celui qui propose les données et celui qui fournit l’IA aux utilisateurs, généralement via le cloud. Comment générer des revenus sur cette base ? Dans le Far West actuel, seul celui qui exploite le modèle en retire des revenus. Il s’agit généralement aussi de celui qui a entraîné le modèle. Ceux qui ont généré les données sont souvent exclus, même si des procès et des législations commencent à remettre les choses en ordre. Les législations doivent permettre de veiller à éviter qu’une seule entreprise ne maximise les revenus de l’IA.
Idéalement, le système devrait permettre de partager les bénéfices. Je ne sais si un tel système est possible, mais il faudrait établir une distinction entre celui qui a entraîne le modèle, celui qui l’héberge et celui qui a créé les données qui servent de base à la réponse spécifique.
Vous vous intéressez à cette technologie depuis plusieurs décennies déjà. Avez-vous l’impression qu’un coup d’accélérateur a été donné ?
ABBEEL: Je pense que notre technologie est en accélération constante. Cela s’explique en partie par le paradigme actuel. Jusqu’en 2012, presque personne ne s’intéressait à l’apprentissage profond. Or désormais, il s’agit de la technologie sur laquelle tout le monde se penche, ce qui explique cette accélération très rapide. Tout le monde travaille sur le même paradigme et plus les données et la puissance informatique augmentent, plus la technologie s’améliore.
Cette vitesse vous étonne-t-elle ?
ABBEEL: Aujourd’hui, plus vraiment, mais certainement au début. Avant 2012, la norme voulait que rien ne fonctionne comme on le désirait. Mais désormais, cette norme est que tout ira bien, ce que personne n’aurait pu prédire avant 2012.
Open AI travaille, entre autres, sur l’IA générale, l’idée d’une IA capable d’effectuer toute une série de tâches aussi bien, voire mieux, qu’un humain. Est-ce que cela commence à devenir réaliste ?
ABBEEL: L’intelligence artificielle générale (AGI) est en partie l’objectif initial des recherches en IA, mais ce fut aussi longtemps un objectif à très long terme. Depuis GPT 3 en 2020, on voit cependant apparaître des modèles qui disposent de fonctions généralisées. Et autour de 2012, nous avons entraîné des IA spécialisées à des fins spécifiques. Mais depuis 2020, on constate que l’on entraîne une IA pour toutes les fonctions. Nous construisons un seul et même modèle pour synthétiser, traduire, comprendre les émotions, etc. Tout devrait être rassemblé en un même modèle, que ce soit ChatGPT, Gemini ou un autre modèle. Cela ouvre dès lors la voie de l’AGI.
Mieux encore, un tel système généraliste est plus efficace, même pour résoudre une seule tâche spécifique. Supposons que vous vouliez faire une synthèse : il apparaît que ChatGPT est meilleur en synthèse que tous les autres systèmes de synthèse spécialisés. La raison en est que ChatGPT a été entraîné pour tout. Tout est interconnecté, ce qui fait que lorsque l’on entraîne un modèle pour différentes fonctions de texte, il devient meilleur que des modèles spécifiques qui n’ont été entraînés que pour une seule fonction de texte. Voilà qui ouvre automatiquement la voie de l’AGI dans la mesure où l’on ne développe qu’un modèle pour tout.
Comment entrevoyez-vous l’avenir des robots ? S’imposeront-ils dans un avenir rapproché dans nos bureaux ? Et nos maisons ?
ABBEEL: Il s’agit là d’un domaine sur lequel je me penche avec Covariant. Outre mes fonctions de professeur à Berkeley, je suis également ‘chief scientist’ et cofondateur de l’entreprise. Notre ambition est d’entraîner de grands modèles d’IA et de les utiliser en robotique. L’idée est de transposer le modèle Tesla. Que fait Tesla pour construire des systèmes à conduite autonome ? Elle vend des voitures et collecte des données qui lui permettent de développer des logiciels de conduite autonome. Nous entendons appliquer le même principe aux robots.
En fait, nous voudrions construire des robots qui ont de multiples compétences, ce qui explique que nous les vendions afin de pouvoir collecter des expériences très différentes. Notre rêve ultime est de construire des robots qui exécutent les tâches physiques que l’homme ne veut plus ou ne peut plus faire. En tant qu’entreprise, nous allons les déployer là où ils peuvent être utilisables. Et plus ils apprendront des tâches, plus nous pourrons les utiliser dans d’autres contextes jusqu’à les rendre performants dans toute une série d’environnements.
Nous avons longuement réfléchi aux premiers marchés sur lesquels nous voudrions les déployer, mais il est rapidement apparu qu’un centre logistique était le meilleur marché pour débuter. Dans un entrepôt comme celui d’Amazon par exemple, la rotation de personnel est pratiquement de 100% sur un an. La plupart des gens sont incapables de rester longtemps au travail. C’est un boulot particulièrement ennuyeux et pénible. Or les clients désirent une livraison rapide, et donc un robot pourrait très bien convenir. Notre robot n’a même pas besoin d’avoir une photo de tous les articles dans l’entrepôt, il suffit de lui demander de retirer les articles d’un casier et de les emballer. Le robot en est parfaitement capable dans la mesure où il a été entraîné sur des millions de produits.
Notre entreprise a désormais une solide expérience de la mise en œuvre de robots et ces robots peuvent collecter des données pour être plus performants et plus flexibles. Et comme tous les marchés sont interconnectés, il est possible de voir plus loin. Le ‘pick and place’ dans un centre logistique est intéressant dans la mesure où l’opération combine la navigation et la reconnaissance. Dès lors, lorsque l’on améliore cette tâche, on peut ensuite apprendre notamment à saisir quelque chose au sol. Et par exemple nettoyer et ranger une maison.
Vous parlez donc d’un robot domestique ?
ABBEEL: La question est de savoir qui est disposé à payer pour un robot qui nettoie votre maison ? Et combien on serait prêt à payer ? Je pense que lorsque l’on parle de robot domestique, les gens imaginent autre chose : un robot capable de cuisiner ou de laver le linge, ou quelque chose du genre. Nous n’en sommes pas encore au point où un robot pourrait exécuter toutes ces tâches, sans parler du prix. Et au-delà des limitations actuelles de l’intelligence artificielle appliquée aux robots, il est également important d’envisager la taille du marché pour réduire le coût du matériel, ce qui n’est pas encore le cas.
La percée de l’IA suscite pas mal d’inquiétudes dans la population, par exemple le risque de pertes d’emploi. Quelle est votre position en tant que chercheur ?
ABBEEL: La question est de savoir quel avenir nous voulons. En tant que civilisation et en tant qu’individu dans la société. Certaines personnes auront toujours des préférences, mais il existe des choses que nous désirons toutes et tous. Comme le traitement du cancer : cette maladie sera sans doute vaincue grâce à l’IA. D’autres choses comme les énergies renouvelables seront certainement souhaitables et je ne vois pas bien comment progresser sans l’IA. Mais il existe aussi des domaines controversés, certainement dans la phase transitoire actuelle.
Je pense qu’il n’appartient pas aux constructeurs d’une technologie de décider ce que le monde peut ou doit faire. Il existe des autorités pour cela. Il me semble que bon nombre de personnes sont conscientes de l’impact majeur que représente l’IA et il est bien d’en discuter. On peut y voir la technologie la plus puissante qui existe actuellement. Et une telle technologie se doit d’être régulée. Il importe de trouver le bon équilibre entre régulation et innovation, ce qui n’est pas facile, mais je suis convaincu que l’on y arrivera.
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici