AlphaZero, l'IA de DeepMind, est capable de maîtriser rapidement n'importe quel jeu comme les échecs, le Go et le Shogi
Sans l'assistance humaine

Le , par Bill Fassinou, Chroniqueur Actualités
Des algorithmes d’OpenAI avaient coopéré pour battre une équipe constituée de cinq des amateurs les plus forts dans le jeu de stratégie Dota 2. C’était déjà un exploit significatif. Mais l’industrie de l’intelligence artificielle ne compte pas s’en arrêter là. En juillet dernier, DeepMind, la filiale de Google basée au Royaume-Uni a conçu des algorithmes qui ont prouvé leur capacité à battre des équipes d’humains à Quake III. La méthode utilisée pour former ces algorithmes est celle en passe de devenir la méthode standard dans le domaine. Il s’agit de la méthode de l’apprentissage par renforcement. Elle consiste à faire faire à l’algorithme une quantité colossale d’essais et de le laisser tirer de ses erreurs les conclusions sur ce qu’il faut faire et ce qu’il ne faut pas faire.

En 2016, DeepMind avait présenté AlphaGo, le premier système d'intelligence artificielle (IA) capable de battre un champion humain de jeu de go, un jeu de plateau originaire de Chine. Trois ans après cet exploit inédit, DeepMind fait la une du magazine "Science" avec son IA conçue pour les jeux, AlphaZero. Rappelons qu'en décembre 2017, la filiale de Google avait fait parler d’elle grâce à un programme d’IA baptisé AlphaZero qui devrait lui permettre de se rapprocher un peu plus de son objectif final à savoir : créer une intelligence artificielle hautement polyvalente et autonome qui serait capable d’apprendre et de résoudre des problèmes complexes toute seule. AlphaZero était annoncé comme le successeur d’AlphaGo Zero, la première IA autodidacte de la filiale de Google qui a été présentée en octobre 2017. AlphaGo Zero, pour sa part, représenterait l’évolution ultime du programme d’IA baptisé AlphaGo qui a défié et vaincu tous les grands maîtres de jeu de go.


À titre de comparaison, il n’aura fallu que trois petits jours à AlphaGo Zero pour venir à bout de son prédécesseur, AlphaGo, après une intense phase d’entraînement. Il faut aussi souligner qu’à l’inverse d’AlphaGo qui exploitait en même temps la technique d’apprentissage supervisé et la technique d’apprentissage par renforcement, AlphaGo Zero n’utilise que l’apprentissage par renforcement. En outre, depuis la création d’AlphaGo Zero, les IA développées par DeepMind utiliseraient désormais un réseau neuronal d’apprentissage profond unifié qui fusionne l’ancien « réseau de décision » avec l’ancien « réseau de valeur » qu’on retrouvait sur ses précédentes versions d’IA afin d’obtenir des IA plus performantes.

Tout comme AlphaGo Zero, le programme d’IA baptisé AlphaZero a la particularité d’évoluer et de se perfectionner en pratiquant un « apprentissage tabula rasa par renforcement ». Avec cette méthode, on s’assure juste que le programme d’IA connait les règles de base du jeu (la manière dont les pions se déplacent sur l’aire de jeu par exemple), mais on évite de lui fournir des données préétablies concernant les stratégies ou les tactiques applicables. Dès lors, le programme d’IA est obligé de s’améliorer tout seul en jouant à de nombreuses reprises à un rythme accéléré. En d’autres termes, AlphaZero n’a pas été conçu pour être spécialement doué dans une tâche précise, mais plutôt pour se comporter comme la première ébauche d’une « version d’IA plus généraliste » que ses prédécesseurs.

Contrairement à son prédécesseur AlphaGo, AlphaZero ne se limite pas au jeu de go : le même algorithme est également champion aux jeux d'échecs et de shogi, un jeu proche des échecs très populaire au Japon. Les chercheurs ont évalué les instances parfaitement formées d’AlphaZero par rapport à Stockfish, Elmo et la version précédente d’AlphaGo Zero aux échecs, au shogi et à Go. Chaque programme était exécuté sur le matériel pour lequel il avait été conçu. Cette fois, AlphaZero n'a pas eu à affronter des humains, mais d'autres logiciels, tous considérés comme supérieurs aux meilleurs champions : Stockfish pour les échecs, Elmo pour le shogi, et AlphaGo Zero (un programme conçu par DeepMind en 2017) pour le go. AlphaZero a vaincu AlphaGo Zero, en remportant 61 % des matchs. « Cela montre qu’une approche générale permet de récupérer les performances d’un algorithme exploitant les symétries de cartes pour générer huit fois plus de données », précisent les chercheurs. Il s'est largement imposé dans tous les cas, notamment aux échecs avec 155 victoires et seulement 6 défaites sur 1000 parties (les autres s'étant terminées par un nul). Pour le shogi, AlphaZero a battu Elmo, remportant 98,2 % des matchs en noir et 91,2 % au total.


La recherche, publiée aujourd'hui dans la revue « Science », a été réalisée par une équipe dirigée par David Silver de DeepMind. Le document est accompagné d'un commentaire de Murray Campbell, chercheur en intelligence artificielle au centre de recherche IBM Thomas J. Watson de Yorktown Heights, dans l'État de New York. AlphaZero cherche seulement 60 000 positions par seconde aux échecs et au shogi, contre 60 millions pour Stockfish et 25 millions pour Elmo. AlphaZero peut compenser le faible nombre d’évaluations en utilisant son réseau de neurones profonds pour se concentrer de manière beaucoup plus sélective sur les variations les plus prometteuses.

Pour illustrer le potentiel de son IA, DeepMind avait précisé en 2017 qu’il n’aura fallu que quatre heures d’entraînement et 44 millions de parties à AlphaZero en partant des règles de base du jeu d’échecs pour venir à bout de Stockfish, l’un des meilleurs programmes d’échecs actuellement. De la même manière, deux heures et 24 millions de parties auront suffi à AlphaZero pour terrasser Elmo, le meilleur programme de shogi (une variante du jeu des échecs pratiquée au Japon) ; et il ne lui aura fallu que huit heures d’entraînement et 21 millions de parties jouées contre lui-même, pour vaincre AlphaGo-Lee, la première IA à avoir dominé un joueur humain.

La plus impressionnante avancée d'AlphaZero est qu'à la différence des générations précédentes de logiciels de jeux, il n'a pas été programmé ou entraîné à partir de données venant de parties jouées par des humains. L'algorithme s'est entraîné tout seul à partir des règles du jeu, en jouant des centaines de milliers de coups contre lui-même. Cette phase d'entraînement, utilisant une technique appelée « apprentissage par renforcement », a mobilisé 5000 processeurs pendant neuf heures pour les échecs, douze heures pour le shogi, et treize jours pour le go. A l'arrivée, non seulement la machine est meilleure que les meilleurs programmes au monde, mais sa stratégie de jeu est totalement inédite. « AlphaZero joue d'une manière extrêmement innovante, ni comme un humain, ni comme une machine, avec une stratégie de jeu très dynamique », a déclaré aux « Echos » Demis Hassabis, le fondateur et PDG de DeepMind.

« Ces travaux ont en effet clôturé un chapitre de la recherche sur l’intelligence artificielle sur plusieurs décennies », écrit Campbell, membre de l’équipe qui a conçu Deep Blue d’ IBM, qui a vaincu en 1997 Garry Kasparov, alors champion du monde d’échecs. « Les chercheurs en intelligence artificielle doivent se tourner vers une nouvelle génération de jeux pour relever les prochains défis », a-t-il ajouté.

Source : Science

Et vous ?

Qu'en pensez-vous ?

Voir aussi

Intelligence artificielle : AlphaGo au coude à coude avec un enfant de six ans en termes de QI Bing et Siri font moins bien

AlphaZero : l'IA de DeepMind qui devient imbattable sur trois jeux différents en moins de 24 heures les premiers pas vers une IA généraliste ?

Homme vs IA au jeu de go : AlphaGo mène désormais deux manches à zéro lee Sedol n'a plus droit à l'erreur s'il veut remporter la partie

AlphaGo arrive en tête du classement des meilleurs joueurs de Go au monde la première fois pour un programme informatique

IA : des agents intelligents de DeepMind battent le record des humains au Quake III un jeu de tir en vue subjective


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :
Contacter le responsable de la rubrique Accueil