Quand l'IA apprend à bluffer : comment les machines ont conquis le poker

L’intelligence artificielle progresse à un rythme impressionnant. Après avoir dominé les échecs puis le jeu de Go, les chercheurs se sont attaqués à un défi encore plus complexe : les jeux à information imparfaite. Contrairement aux échecs, où tous les éléments sont visibles, certaines situations exigent de prendre des décisions sans disposer de toutes les informations. C’est précisément ce qui a fait du poker un terrain d’expérimentation privilégié pour les spécialistes de l’IA. Petit tour d’horizon.

Le poker, un cas d’étude pour l’intelligence artificielle

Le poker fait partie des jeux dits à information imparfaite, un domaine étudié en intelligence artificielle pour analyser la prise de décision lorsque toutes les données ne sont pas accessibles. Une partie des éléments du jeu reste cachée aux participants, ce qui oblige les systèmes à raisonner en probabilités plutôt qu’à partir d’un état complet du jeu.

Dans les travaux consacrés à Libratus, le chercheur Noam Brown explique que « les informations cachées et la taille gigantesque du jeu ont rendu le poker particulièrement difficile à résoudre pour l’IA », soulignant ainsi la complexité computationnelle du problème dans les modèles classiques de recherche de stratégie optimale.

Libratus et Pluribus, ces deux tournants majeurs

En 2017, Libratus, développé à l’université Carnegie Mellon par Noam Brown et Tuomas Sandholm, a marqué l’histoire en devenant le premier système à battre des joueurs professionnels lors d’une longue série de confrontations.

Deux ans plus tard, Pluribus franchit une nouvelle étape en étant capable de jouer efficacement contre plusieurs adversaires simultanément, une configuration plus proche des situations réelles de jeu stratégique.

Selon l’équipe de l’université Carnegie Mellon dans ses publications scientifiques, le Texas Hold’em no-limit en heads-up constitue depuis plusieurs années le principal banc d’essai utilisé pour évaluer les progrès de l’intelligence artificielle dans les jeux à information imparfaite.

Ce jeu est l’une des variantes les plus connues du poker. Il est largement popularisé et encadré sur les plateformes de poker en ligne, qui reproduisent ces dynamiques stratégiques à grande échelle et offrent un volume important de situations exploitables pour l’analyse algorithmique.

Sa structure repose sur des règles et un classement des mains fixes, mais sur des décisions prises avec une connaissance incomplète de la situation. Cette combinaison en fait un cas d’étude pertinent pour analyser la prise de décision sous incertitude.

Quand le bluff devient un calcul mathématique

Pour un être humain, le bluff est généralement associé à la psychologie et à l’intuition. Dans le cas des systèmes développés par l’université Carnegie Mellon, notamment Libratus et Pluribus, les décisions reposent en réalité sur des modèles issus de la théorie des jeux et de l’optimisation probabiliste.

Ces systèmes s’appuient notamment sur des méthodes d’apprentissage par auto-jeu et sur des algorithmes d’optimisation comme le « Counterfactual Regret Minimization » (CFR), utilisés pour améliorer progressivement les stratégies en fonction des résultats observés.

Les succès de Libratus et de Pluribus ont démontré que l’intelligence artificielle pouvait exceller dans des environnements caractérisés par l’incertitude. Les travaux réalisés dessus intéressent désormais de nombreux secteurs. En effet, les modèles développés pour gérer l’incertitude sont désormais applicables à la négociation automatisée, à la planification logistique ou encore à l’analyse des risques financiers.