Les dames, les échecs, Go: ces dernières années, l'intelligence artificielle est parvenue à vaincre des champions humains dans des jeux d'une complexité croissante. Seul le poker fut longtemps considéré comme une citadelle imprenable. Le succès y est en effet trop tributaire du hasard et de la capacité de bluffer. Or ce dernier point n'est pas précisément ce qu'on peut attendre d'un ordinateur. Pour ce qui est des dames, des échecs et de Go, chaque joueur peut en outre visionner l'ensemble de la plate-forme de jeu. Le poker, par contre, est un jeu caractérisé par une carence d'informations: on ne connaît pas les cartes dont dispose l'adversaire.

Traditionnellement, la théorie du jeu aborde ce genre de situations en recherchant un 'équilibre Nash'. Dans le cas du jeu 'pierre, papier, ciseaux', on peut encore résumer cela simplement: vous ne savez pas ce que l'autre va faire. Il est donc préférable d'opter au hasard pour 'pierre', 'papier' ou 'ciseaux'. Votre adversaire pourra tout au plus vous égaler en choisissant la même stratégie. Au bout d'un certain temps, si vous observez que l'autre opte systématiquement plus d'une fois sur trois pour 'papier', vous pouvez tenter d'exploiter ce point faible en choisissant vous-même davantage 'ciseaux'.

Pour le poker, on peut effectuer des pondérations similaires, mais à un niveau plus complexe. Vous avez de bonnes cartes en main? Mieux vaut alors miser haut. D'un autre côté, vos adversaires ne vous suivront pas, s'ils remarquent que vous ne misez haut que quand vous avez de bonnes cartes. Tout l'art consiste donc à rester imprévisible et à bluffer à des moments propices. Il va de soi aussi que la décision que vous prenez, dépend aussi de celles de vos adversaires. Pour cela, le calcul d'un équilibre Nash devient vite impossible, surtout si plusieurs joueurs se retrouvent autour de la table de jeu.

Le chercheur finnois Tuomas Sandholm tente depuis des années déjà de soumettre ce problème à l'ordinateur. Il est lié à Carnegie Mellon, une université de Pittsburgh qui fait partie du top mondial en matière d'intelligence artificielle. Il y a deux ans, Sandholm a développé, conjointement avec l'étudiant en doctorat Noam Brown, un AI-bot baptisé 'Libratus'. Ce programme a à présent réussi à batte quatre joueurs professionnels au Texas Hold'em, la variante de poker la plus jouée. Il convient cependant de noter que ces champions de poker n'ont pas été vaincus simultanément. Libratus n'est parvenu qu'à battre un seul adversaire à la fois. Lorsque plusieurs joueurs se trouvaient autour de la table, les choses devenaient trop compliquées pour l'AI-bot.

Voilà pourquoi Sandholm et Brown ont mis au point un nouvel ordinateur de jeu de poker: 'Pluribus'. Ils l'ont fait jouer d'abord pendant huit jours contre des copies de lui-même et ce, sans informer à l'avance Pluribus sur la façon dont les humains jouent au poker. Cette méthode est similaire à celle avec laquelle des chercheurs de Google Deepmind créèrent Alpha Go Zero (la toute dernière et plus réussie version de l'ordinateur AI qui vainquit tous ses adversaires au jeu de Go). Elle offre comme avantage que l'ordinateur ne reçoit ni une vision préconçue ni d'autres limites humaines.

Une fois que Pluribus se fût suffisamment entraîné, il affronta treize joueurs de poker professionnels différents, dont cinq prirent place autour de la table de jeu numérique chaque jour. En tout, ce sont dix mille parties de Texas Hold'em unlimited qui furent jouées. Pluribus en a certes perdu pas mal. Il faut dire que le poker reste un jeu où il faut aussi avoir une bonne dose de chance. Plus Pluribus joua de parties, plus sa supériorité crût. L'ordinateur fit en fin de compte significativement mieux que ses adversaires humains. Il n'y avait pas d'argent en jeu, mais si chaque fiche poker avait valu un euro, Pluribus aurait gagné cinq euros par partie. Ses développeurs auraient ainsi empoché quelque mille euros par heure.

La ligne verte montre le nombre de fiches poker de Pluribus en affrontant des joueurs professionnels. Les lignes en pointillés jaune et bleue représentent la marge d'incertitude (un seul écart par défaut). © Carnegie Mellon University/ Facebook AI

On n'enregistra en outre pas de frais informatiques importants: l'apprentissage des capacités de base par Pluribus s'effectua en huit jours, sans recourir à des GPU. A peine 512 Go de RAM et 150 dollars en coût de 'cloud computing' suffirent, selon Noam Brown dans un blog. Voilà qui contraste nettement avec d'autres évolutions AI récentes, où l'on a souvent dépensé des millions pour tester les logiciels. "Certains experts dans le domaine sont préoccupés par le fait que la recherche future en intelligence artificielle soit dominée par de vastes équipes de chercheurs, qui soient les seules à pouvoir faire appel à une énorme puissance de calcul. Selon nous, Pluribus démontre bien que la recherche innovante en AI est également possible avec de modestes moyens", écrit Brown, qui travaille depuis peu pour Facebook.

Les chercheurs ont donc mis au point un robot économique, susceptible d'être potentiellement abusé pour escroquer des casinos en ligne. "Cela peut s'avérer très dangereux pour la communauté du poker", reconnaît Brown sur Technology Review. En concertation avec Sandholm, il a donc décidé de ne pas révéler le code complet de Pluribus.

Cette percée scientifique peut aussi avoir des implications en dehors du jeu de poker. Selon les chercheurs, une technologie similaire pourrait être utilisée pour, disons, la navigation routière ou la cyber-sécurité. Pour quasiment toutes les interactions, l'humain prend en effet des décisions sur base d'informations incomplètes et doit tenir compte des possibles intentions de plusieurs acteurs. Dans ce sens, les négociations politiques s'apparentent elles aussi nettement plus au poker qu'aux échecs. Qui sait, l'intelligence artificielle pourrait à l'avenir aider nos politiciens à former un gouvernement!