Le but ultime de l’entreprise technologique britannique DeepMind, une filiale de Google spécialisée dans l’intelligence artificielle, n’a jamais été de battre des experts humains dans des jeux de stratégie réputés complexes comme les échecs ou le jeu de go.
En réalité, l’entreprise aurait toujours eu à cœur de créer une intelligence artificielle hautement polyvalente qui serait capable de réaliser des tâches complexes avec un minimum de connaissances de base. Cette IA généraliste évoluerait de manière autonome et s’adapterait à toutes les nouvelles situations sans s’appuyer de façon permanente sur un apprentissage supervisé par des humains.
Il faut rappeler qu’à l’heure actuelle, aucun humain n’est en mesure de rivaliser avec AlphaGo, le programme d’intelligence artificielle développé spécialement par DeepMind pour le jeu de go. L’IA ayant réussi à battre tous les experts connus de ce jeu de stratégie d’origine asiatique, la filiale de Google a estimé qu’il était temps que son programme prenne sa retraite sportive et se retire de la compétition.
Toutefois, cela ne voulait absolument pas dire qu’AlphaGo serait abandonné, loin de là. Un nouveau rapport publié cette semaine sur le site spécialisé arXiv par les chercheurs de DeepMind suggère que l’entreprise technologique s’est déjà lancée dans un projet encore plus ambitieux.
En effet, la filiale de Google fait de nouveau parler d’elle grâce à un nouveau programme d’IA baptisé AlphaZero qui devrait lui permettre de se rapprocher un peu plus de son objectif final à savoir : créer une intelligence artificielle hautement polyvalente et autonome qui serait capable d’apprendre et de résoudre des problèmes complexes toute seule.
AlphaZero serait le successeur d’AlphaGo Zero, la première IA autodidacte de la filiale de Google qui a été présentée en octobre dernier. AlphaGo Zero, pour sa part, représenterait l’évolution ultime du programme d’IA baptisé AlphaGo qui a défié et vaincu tous les grands maitres de jeu de go. À titre de comparaison, il n’aura fallu que trois petits jours à AlphaGo Zero pour venir à bout de son prédécesseur, AlphaGo, après une intense phase d’entraînement. Il faut aussi souligner qu’à l’inverse d’AlphaGo qui exploitait en même temps la technique d’apprentissage supervisé et la technique d’apprentissage par renforcement, AlphaGo Zero n’utilise que l’apprentissage par renforcement.
En outre, depuis la création d’AlphaGo Zero, les IA développées par DeepMind utiliseraient désormais un réseau neuronal d’apprentissage profond unifié qui fusionne l’ancien « ;réseau de décision ;» avec l’ancien « ;réseau de valeur ;» qu’on retrouvait sur ses précédentes versions d’IA afin d’obtenir des IA plus performantes.
Tout comme AlphaGo Zero, le programme d’IA baptisé AlphaZero a la particularité d’évoluer et de se perfectionner en pratiquant un « ;apprentissage tabula rasa par renforcement ;». Avec cette méthode, on s’assure juste que le programme d’IA connait les règles de base du jeu (la manière dont les pions se déplacent sur l’aire de jeu par exemple), mais on évite de lui fournir des données préétablies concernant les stratégies ou les tactiques applicables. Dès lors, le programme d’IA est obligé de s’améliorer tout seul en jouant à de nombreuses reprises à un rythme accéléré. En d’autres termes, AlphaZero n’a pas été conçu pour être spécialement doué dans une tâche précise, mais plutôt pour se comporter comme la première ébauche d’une « ;version d’IA plus généraliste ;» que ses prédécesseurs.
Pour illustrer le potentiel de sa nouvelle IA, DeepMind a précisé qu’il n’aura fallu que quatre heures d’entraînement et 44 millions de parties à AlphaZero en partant des règles de base du jeu d’échecs pour venir à bout de Stockfish, l’un des meilleurs programmes d’échecs actuellement. De la même manière, deux heures et 24 millions de parties auront suffi à AlphaZero pour terrasser Elmo, le meilleur programme de shogi (une variante du jeu des échecs pratiquée au Japon) ;; et il ne lui aura fallu que huit heures d’entraînement et 21 millions de parties jouées contre lui-même, pour vaincre AlphaGo-Lee, la première IA à avoir dominé un joueur humain.
Ce qui est remarquable ici, c’est qu’en moins de 24 heures, le même programme informatique a appris à jouer à trois jeux de plateau complexes différents et réussi à développer des capacités surhumaines à chaque fois.
Il ne reste maintenant plus à DeepMind qu’à relever son prochain défi : battre les humains au jeu vidéo StarCraft avec une IA. Une tâche qui s’annonce des plus ardues puisqu’il n’y a pas si longtemps, un joueur professionnel qui se classe parmi les meilleurs joueurs de StarCraft dans le monde, Song Byung-gu en l’occurrence, a battu quatre robots dotés d’IA en moins de 27 minutes (le match le plus long a duré environ dix minutes et demie, alors que le plus court quant à lui n’a duré que quatre minutes et demie.).
Source : Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm (PDF)
Et vous ?
Qu’en pensez-vous ?
Voir aussi
Intelligence artificielle : AlphaGo au coude à coude avec un enfant de six ans en termes de QI, Bing et Siri font moins bien
Jeu de Go : AlphaGo prend sa retraite et pourrait ne plus participer à des compétitions, suite à sa récente victoire sur le numéro un mondial
AlphaGo arrive en tête du classement des meilleurs joueurs de Go au monde, la première fois pour un programme informatique
AlphaZero : l'IA de DeepMind qui devient imbattable sur trois jeux différents en moins de 24 heures
Les premiers pas vers une IA généraliste ?
AlphaZero : l'IA de DeepMind qui devient imbattable sur trois jeux différents en moins de 24 heures
Les premiers pas vers une IA généraliste ?
Le , par Christian Olivier
Une erreur dans cette actualité ? Signalez-nous-la !