Ce n'était même pas une course à suspense. Avec plus d'un demi-tour d'avance sur le reste, Sophy Rouge a franchi en premier le drapeau à damiers dans le jeu vidéo Gran Turismo, devançant l'actuel champion du monde des eSports Tomoaki Yamanaka qui a dû s'avouer largement vaincu. "Je me suis senti frustré durant la course, a avoué ce dernier, perplexe, au terme de la course. C'est la première fois que je courais contre une IA."
...

Ce n'était même pas une course à suspense. Avec plus d'un demi-tour d'avance sur le reste, Sophy Rouge a franchi en premier le drapeau à damiers dans le jeu vidéo Gran Turismo, devançant l'actuel champion du monde des eSports Tomoaki Yamanaka qui a dû s'avouer largement vaincu. "Je me suis senti frustré durant la course, a avoué ce dernier, perplexe, au terme de la course. C'est la première fois que je courais contre une IA." Sophy Rouge est un agent d'intelligence artificielle conçu en partenariat entre le studio de développement de Gran Turismo Polyphony Digital et une nouvelle entité 'IA Group' mise en place au sein de la maison mère Sony. Ceux-ci ont soumis Sophy Rouge, de même que les IA de plus bas niveau Sophy Emeraude, Sophy Lavande et Sophy Grise, à une AI autoapprenante sur un réseau neuronal en cours de développement depuis cinq ans par le groupe japonais en collaboration avec une poignée d'autres centres de recherche. Avec comme objectif spécifique de mettre au point une IA qui soit supérieure dans une course de voiture à des joueurs humains particulièrement entraînés. La course à laquelle a assisté Data News était la première au cours de laquelle Sophy l'a emporté face à des participants humains. Quelques semaines auparavant, l'AI avait déjà gagné face à pratiquement la même équipe de champions d'eSports lors d'un test dont les résultats ont été publiés dans le magazine scientifique Nature. Cet article expliquait également la manière dont cette performance avait été réalisée. Car il peut vraiment être question de percée majeure puisque le fait que Sophy l'emporte face à des personnes humaines dans un jeu vidéo représente une nouvelle étape marquante de l'évolution de l'IA, du même calibre que la victoire dans le jeu d'échecs remportée en 1996 par le système d'IBM Deep Blue face au champion du monde de l'époque, Garry Kasparov. Ou encore le succès de l'IA Watson d'IBM en 2011 lors du jeu télévisé américain Jeopardy! , sans oublier la victoire de l'IA de DeepMind dans le jeu de plateau Go en 2015 et plus récemment les percées de cette même intelligence DeepMind dans le jeu vidéo de stratégie StarCraft II. Le fait que Sophy devienne le nouveau vainqueur de ce classement s'explique par le fait qu'il s'agit d'une simulation relativement réaliste d'un environnement physique. Il s'agit là d'une énorme différence par rapport aux précédentes percées de l'IA: alors que les joueurs humains pouvaient se mesurer sur un terrain de jeu clairement et strictement défini, Sophy doit se mouvoir dans un univers commandé par ordinateur et où les lois de la physique et de l'aérodynamique s'appliquent. Où le système doit constamment stocker des milliards de données sur la position, la vitesse, l'accélération et d'autres variables pertinentes. Où les relations spatiales de l'environnement (modèles 3D de circuits de compétition de Lago Maggiore en Italie, du Circuit de la Sarthe en France ainsi que d'un circuit croate imaginé par les concepteurs du jeu) sont constamment intégrées. Où le système doit penser au niveau tactique pour contrer les manoeuvres des adversaires humains sur le circuit. Et où il faut même tenir compte - quand bien même les chercheurs n'ont pour l'instant enregistré que peu de résultats à ce niveau - des règles implicites de la sportivité. Sur le plan du matériel, Sophy a été entraîné sur un réseau neuronal relié par un câble Ethernet à des consoles PlayStation 4 sur lesquelles tournaient Gran Turismo Sport, la version précédente du jeu lancée en 2017. Des versions de l'IA commandaient chacune une vingtaine de voitures simultanément sur dix à vingt PlayStation, à une vitesse de 10 Hertz, laquelle a été choisie parce qu'elle est proche de la vitesse des réflexes des champions d'eSports. Ce faisant, Sophy a appris, grâce à plus de 45.000 heures de jeu, la manière de piloter une voiture ainsi que d'accélérer et de freiner. "Nous parlons ici d'IA super-humaine", explique Kazunori Yamauchi, CEO de Polyphony Digital et depuis 1997 déjà la tête pensante des jeux Gran Turismo. Il affirme que, grâce à ses qualités d'autoapprentissage, Sophy a déjà appris certaines choses que des coureurs professionnels sur de véritables circuits commencent seulement à découvrir. "La logique traditionnelle d'un coureur est d'entamer un virage lentement et d'en ressortir le plus rapidement possible, explique Yamauchi. Or Sophy a appris elle-même à monitorer en permanence sa position et son accélération, ce qui lui évite de devoir ralentir à l'approche d'un virage. Donc d'entrer vite et de sortir vite. Elle utilise globalement des techniques que des coureurs dans la vraie vie, comme Lewis Hamilton et Max Verstappen, commencent seulement à maîtriser. Or Sophy les a apprises de manière totalement autonome." La technique IA mise en oeuvre par les chercheurs pour entraîner Sophy est baptisée le 'reinforcement learning' ou apprentissage par renforcement. "Le système apprend le jeu tout simplement en jouant, sans imiter le comportement de joueurs humains, précise Ann Nowé, professeure en sciences informatiques et directrice de l'AI Lab à la Vrije Universiteit Brussel. Les techniques les plus courantes d'apprentissage de l'IA se basent sur le 'data mining'. Dans le cas du 'supervised learning', une image est par exemple comparée à des millions d'images labellisées de chiens ou de chats pour apprendre que l'image en question représente bien un chien ou un chat. Ensuite, il existe l''unsupervised learning' où il n'y a pas de données labellisées, mais où l'on regroupe des éléments provenant de jeux de données sur la base des caractéristiques communes qu'ils présentent. L'avantage de l'apprentissage par renforcement est qu'il est possible d'aller plus loin que le niveau de l'expert humain. Les techniques utilisées dans cette expérience ne sont certes pas neuves. Mais ce qui est particulièrement intéressant est de les voir traduites dans une application concrète. Un jeu de course est un environnement ayant une dynamique très complexe, contrairement à un jeu de plateau où le cadre et les règles du jeu sont très précises." Il peut paraître quelque peu fastidieux de mettre en compétition une 'créature' créée par du code informatique et des humains dans un jeu vidéo, lequel est en fin de compte aussi un morceau de logiciel. Mais la raison pour laquelle on utilise désormais des 'agents' d'intelligence artificielle dans des jeux est qu'il est ainsi possible d'accélérer sensiblement le processus d'apprentissage. Du coup, l'évolution de l'IA autoapprenante a connu un sérieux coup d'accélérateur ces dernières années. S'il n'y avait sans doute que vingt ans entre les échecs et Go, les avancées qu'a connues l'IA grâce à l'apprentissage des jeux vidéo (ces dernières années, des IA ont également été entraînées sur de vieilles consoles de jeux Atari et sur le jeu de tactique DotA 2) ont été spectaculaires. De même, Sophy a fait d'énormes progrès: la victoire de Sophy Rouge était d'ailleurs nettement plus convaincante que celle d'un précédent agent Sophy qui avait franchi la ligne d'arrivée en premier dans le cadre de la recherche parue dans Nature. "Plusieurs facteurs ont permis de donner ce coup d'accélérateur, souligne Nowé. Bien sûr, l'augmentation de la puissance de calcul est un élément non négligeable. Cela dit, les techniques et algorithmes d'apprentissage par renforcement sont aussi en amélioration constante, sans parler plus généralement d'un intérêt toujours plus marqué pour cette branche de la recherche en IA. D'ailleurs, cette recherche le démontre." Cela étant, Sophy n'a pas uniquement lutté pour la "valeur du loisir" puisque les chercheurs de l'étude de Nature entrevoient également des débouchés futurs dans la robotique. Car en fin de compte, les drones, voitures autonomes et autres robots androïdes interagissent également dans un environnement physique complexe, à savoir le monde réel. Ainsi, Nowé entrevoit des applications possibles dans l'étude sur les changements climatiques et l'épidémiologie, ou "des modèles informatiques 'physiques' toujours plus complexes sont utilisés depuis des décennies déjà." Par ailleurs, estime Yamauchi, Sophy pourrait repousser les limites d'une intelligence artificielle capable de travailler en collaboration avec l'homme et de l'assister, soit le rêve ultime des chercheurs en IA. Une première étape timide dans ce domaine pourrait être franchie assez rapidement. En effet, lors du lancement récent de Grand Turismo 7, la dernière version des jeux prévus pour la console PlayStation 5 de Sony, les concepteurs ont encore prévu des adversaires IA préprogrammés classiques sur la ligne de départ. Mais dans le cadre d'une mise à jour, Sophy - ou du moins une version compacte, capable de tourner sur du matériel PlayStation 5 - prendra prochainement part à la compétition. Cela étant, l'objectif n'est pas de la mettre en concurrence face à des joueurs, intervient Yamauchi. "Nous prévoyons plutôt d'installer un agent Sophy auquel le joueur pourra apprendre à s'améliorer dans le jeu. Notre philosophie est de faire de l'IA un ami. C'est d'ailleurs la raison pour laquelle nous estimons qu'il est important que la 'sportivité' soit prise en compte dans sa conception. Les recherches en IA nous offrent une excellente occasion de réfléchir vraiment à ce que cela signifie d'être une personne et à la manière dont la technologie et la société peuvent coexister."