AlphaZero : l'IA de DeepMind qui devient imbattable sur trois jeux différents en moins de 24 heures
Les premiers pas vers une IA généraliste ?

Le , par Christian Olivier, Chroniqueur Actualités
Le but ultime de l’entreprise technologique britannique DeepMind, une filiale de Google spécialisée dans l’intelligence artificielle, n’a jamais été de battre des experts humains dans des jeux de stratégie réputés complexes comme les échecs ou le jeu de go.

En réalité, l’entreprise aurait toujours eu à cœur de créer une intelligence artificielle hautement polyvalente qui serait capable de réaliser des tâches complexes avec un minimum de connaissances de base. Cette IA généraliste évoluerait de manière autonome et s’adapterait à toutes les nouvelles situations sans s’appuyer de façon permanente sur un apprentissage supervisé par des humains.

Il faut rappeler qu’à l’heure actuelle, aucun humain n’est en mesure de rivaliser avec AlphaGo, le programme d’intelligence artificielle développé spécialement par DeepMind pour le jeu de go. L’IA ayant réussi à battre tous les experts connus de ce jeu de stratégie d’origine asiatique, la filiale de Google a estimé qu’il était temps que son programme prenne sa retraite sportive et se retire de la compétition.

Toutefois, cela ne voulait absolument pas dire qu’AlphaGo serait abandonné, loin de là. Un nouveau rapport publié cette semaine sur le site spécialisé arXiv par les chercheurs de DeepMind suggère que l’entreprise technologique s’est déjà lancée dans un projet encore plus ambitieux.

En effet, la filiale de Google fait de nouveau parler d’elle grâce à un nouveau programme d’IA baptisé AlphaZero qui devrait lui permettre de se rapprocher un peu plus de son objectif final à savoir : créer une intelligence artificielle hautement polyvalente et autonome qui serait capable d’apprendre et de résoudre des problèmes complexes toute seule.


AlphaZero serait le successeur d’AlphaGo Zero, la première IA autodidacte de la filiale de Google qui a été présentée en octobre dernier. AlphaGo Zero, pour sa part, représenterait l’évolution ultime du programme d’IA baptisé AlphaGo qui a défié et vaincu tous les grands maitres de jeu de go. À titre de comparaison, il n’aura fallu que trois petits jours à AlphaGo Zero pour venir à bout de son prédécesseur, AlphaGo, après une intense phase d’entraînement. Il faut aussi souligner qu’à l’inverse d’AlphaGo qui exploitait en même temps la technique d’apprentissage supervisé et la technique d’apprentissage par renforcement, AlphaGo Zero n’utilise que l’apprentissage par renforcement.

En outre, depuis la création d’AlphaGo Zero, les IA développées par DeepMind utiliseraient désormais un réseau neuronal d’apprentissage profond unifié qui fusionne l’ancien « ;réseau de décision ;» avec l’ancien « ;réseau de valeur ;» qu’on retrouvait sur ses précédentes versions d’IA afin d’obtenir des IA plus performantes.

Tout comme AlphaGo Zero, le programme d’IA baptisé AlphaZero a la particularité d’évoluer et de se perfectionner en pratiquant un « ;apprentissage tabula rasa par renforcement ;». Avec cette méthode, on s’assure juste que le programme d’IA connait les règles de base du jeu (la manière dont les pions se déplacent sur l’aire de jeu par exemple), mais on évite de lui fournir des données préétablies concernant les stratégies ou les tactiques applicables. Dès lors, le programme d’IA est obligé de s’améliorer tout seul en jouant à de nombreuses reprises à un rythme accéléré. En d’autres termes, AlphaZero n’a pas été conçu pour être spécialement doué dans une tâche précise, mais plutôt pour se comporter comme la première ébauche d’une « ;version d’IA plus généraliste ;» que ses prédécesseurs.

Pour illustrer le potentiel de sa nouvelle IA, DeepMind a précisé qu’il n’aura fallu que quatre heures d’entraînement et 44 millions de parties à AlphaZero en partant des règles de base du jeu d’échecs pour venir à bout de Stockfish, l’un des meilleurs programmes d’échecs actuellement. De la même manière, deux heures et 24 millions de parties auront suffi à AlphaZero pour terrasser Elmo, le meilleur programme de shogi (une variante du jeu des échecs pratiquée au Japon) ;; et il ne lui aura fallu que huit heures d’entraînement et 21 millions de parties jouées contre lui-même, pour vaincre AlphaGo-Lee, la première IA à avoir dominé un joueur humain.


Ce qui est remarquable ici, c’est qu’en moins de 24 heures, le même programme informatique a appris à jouer à trois jeux de plateau complexes différents et réussi à développer des capacités surhumaines à chaque fois.

Il ne reste maintenant plus à DeepMind qu’à relever son prochain défi : battre les humains au jeu vidéo StarCraft avec une IA. Une tâche qui s’annonce des plus ardues puisqu’il n’y a pas si longtemps, un joueur professionnel qui se classe parmi les meilleurs joueurs de StarCraft dans le monde, Song Byung-gu en l’occurrence, a battu quatre robots dotés d’IA en moins de 27 minutes (le match le plus long a duré environ dix minutes et demie, alors que le plus court quant à lui n’a duré que quatre minutes et demie.).

Source : Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm (PDF)

Et vous ?

Qu’en pensez-vous ?

Voir aussi

  Intelligence artificielle : AlphaGo au coude à coude avec un enfant de six ans en termes de QI, Bing et Siri font moins bien
Jeu de Go : AlphaGo prend sa retraite et pourrait ne plus participer à des compétitions, suite à sa récente victoire sur le numéro un mondial
AlphaGo arrive en tête du classement des meilleurs joueurs de Go au monde, la première fois pour un programme informatique


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse Signaler un problème

Avatar de Fusoy Fusoy - Membre confirmé https://www.developpez.com
le 09/12/2017 à 18:57
En moins de 24 heures c'est impressionnant pour un humain. Mais quand on prend en compte qu'il a fallu 21 à 44 millions de partie, ça devient vraiment moyen comme réussite. Il lui faudra combien de partie afin de connaitre assez bien le jeupour battre le champion de Starcraft 2 et ainsi devenir imbattable ? Beaucoup, beaucoup plus qu'un humain.
Avatar de rawsrc rawsrc - Modérateur https://www.developpez.com
le 09/12/2017 à 19:46
Vu le nombre de parties accumulées pour en arriver là, c'est plus de la capitalisation d'expériences que de l'IA.
Avatar de ijk-ref ijk-ref - Membre averti https://www.developpez.com
le 10/12/2017 à 4:36
L'humain n'a certainement pas dû effectuer 20 millions de parties réelles pour devenir bon. Cependant il ne faudrait pas négliger les nombreux morceaux de parties qu'il se "simule" dans la tête pour apprendre.
Avatar de SimonDecoline SimonDecoline - Membre éprouvé https://www.developpez.com
le 10/12/2017 à 10:49
Citation Envoyé par rawsrc Voir le message
Vu le nombre de parties accumulées pour en arriver là, c'est plus de la capitalisation d'expériences que de l'IA.
Absolument pas.
44 millions de parties (environ 10^8) c'est rien comparé à la complexité du jeu d'échecs (plus de 10^100 : https://fr.wikipedia.org/wiki/Nombre_de_Shannon)
Avatar de raphchar raphchar - Membre confirmé https://www.developpez.com
le 10/12/2017 à 12:00
Citation Envoyé par ijk-ref Voir le message
L'humain n'a certainement pas dû effectuer 20 millions de parties réelles pour devenir bon. Cependant il ne faudrait pas négliger les nombreux morceaux de parties qu'il se "simule" dans la tête pour apprendre.
Sans parler qu'un humain a appris tout au cours de sa vie et peut réutiliser son expérience pour ses jeux. Il serait intéressant de savoir si l'apprentissage est plus rapide si l'IA maitrise plus de jeux.

Conceptuellement, Starcraft est différent du jeu d'échec, car si le jeu d'échec se joue "sans mémoire" (i.e. peu importe si on a oublié le début de la partie) et sans secret, dans Starcraft on ne voit pas tout le plateau , il y a donc besoin de mémoire pour réutiliser les informations obtenues sur ses ennemis.
Si AlphaZero arrive a de bon résultats sur ce jeu, alors il y aura un beau progrès.
Avatar de Theta Theta - Membre éclairé https://www.developpez.com
le 11/12/2017 à 10:46
Je trouve un peu bizare que le prochain objectif soit starcraft vu que dans ce jeu, les fameuses APM (actions par minutes) sont très importante, et qu'un ordinateur bat très largement un humain sur ce point là. D'ailleurs il me semble déjà avoir vu une vidéo d'un bot qui contrôlait chacune de ses unités individuellement et roulait littéralement sur n'importe quel joueur humain.

C'est un peu comme dans un FPS, un bot qui vise et tire en quelques ms ça n'a rien de difficile à coder et ça sera difficilement battable par un humain.

Après s'ils limitent les APM du bot artificiellement pour qu'il se concentre sur la stratégie, why not.
Avatar de Jhulk Jhulk - Membre du Club https://www.developpez.com
le 11/12/2017 à 11:41
C'est "facile" quand en 24H quand on peut faire 44 millions de parties, pour faire 44 millions de parties de starcraft va falloir y passer plus de temps.
A moins d'être en mesure d’accélérer le jeu et de faire jouer l'IA face à elle même.
Avatar de Lyons Lyons - Membre éclairé https://www.developpez.com
le 11/12/2017 à 14:54
Il y a déjà un championnat de bots/AI pour starcraft (https://sscaitournament.com/). Ils ne jouent pas contre des vrais joueurs par contre donc difficile d'évaluer leur niveau.
Avatar de ijk-ref ijk-ref - Membre averti https://www.developpez.com
le 13/12/2017 à 9:35
@Theta Les bots dont tu parles sont internes au jeu. Là on parle plutôt d'IA n'ayant que l'image, et le son comme informations - enfin je crois que c'est justement ça le but : qu'il "comprenne" ce qu'il voit.
Avatar de pierre++ pierre++ - Membre habitué https://www.developpez.com
le 15/12/2017 à 10:42
Bientôt ces systèmes pourront développer des programmes complexes en quelques heures, plutôt que nous en quelques mois.
Profitons bien de ces dernières années ou nous ne sommes pas encore remplacés par ceux-ci
Contacter le responsable de la rubrique Accueil