Une intelligence artificielle explore Mario Bros et apprend de ses erreurs grâce à sa « curiosité »
La démo est disponible en téléchargement

Le , par Stéphane le calme, Chroniqueur Actualités
Les algorithmes conventionnels d'IA apprennent par un renforcement positif : ils sont récompensés pour la réalisation d'une sorte de but externe, comme augmenter le score dans un jeu vidéo d'un point. Cela les encourage à effectuer des actions qui augmentent leur score (comme sauter sur les ennemis dans le cas de Mario) et les décourage d'effectuer des actions qui n'augmentent pas le score (comme de tomber dans une fosse).

Ce type d'approche, appelé apprentissage de renforcement, a été utilisé dans la conception d’AlphaGo, l'intelligence artificielle de la filiale de Google DeepMind qui a fait plier le meilleur joueur mondial cette semaine. Sur des milliers de jeux, l'algorithme AlphaGo a appris à poursuivre des stratégies qui ont conduit à la récompense ultime : une victoire.

Mais, dans le monde réel, l’apprentissage n’est pas toujours motivé par la récompense, explique Deepak Pathak, un scientifique de l’Université Berkely en Californie qui a développé le système : « Au lieu de cela, les humains ont une curiosité innée qui les aide à apprendre », indique-t-il. Ce qui peut, selon lui, être la raison pour laquelle les humains arrivent à maîtriser un large éventail de compétences sans nécessairement chercher à les apprendre.

Ainsi, Pathak s'est mis à insuffler à son propre algorithme d'apprentissage de renforcement un « sentiment de curiosité » pour voir si cela suffirait à lui permettre d'apprendre une gamme de compétences.

« Nous formulons la curiosité comme l'erreur dans la capacité d'un agent à prédire la conséquence de ses propres actions dans un espace de fonctionnalité visuel, appris par un modèle de dynamique inverse autosupervisé. Notre formulation évolue vers des espaces d'état continus à grande dimension comme des images, contourne les difficultés de prédiction directe des pixels et, de manière critique, ignore les aspects de l'environnement qui ne peuvent affecter l'agent », a-t-il expliqué.

L'algorithme de Pathak était récompensé lorsqu'il améliorait la compréhension de son environnement, en particulier les éléments qui l'ont directement affecté. Ainsi, plutôt que de chercher une récompense dans le monde du jeu, l'algorithme a été récompensé pour l'exploration et la maîtrise des compétences qui l'ont amené à en découvrir plus sur ce monde.


L'approche de Pathak a été évaluée dans deux environnements : VizDoom et Super Mario Bros. Trois grands paramètres sont étudiés :
une récompense extrinsèque éparse, où la curiosité permet de réduire considérablement les interactions avec l'environnement pour atteindre le but ;
une exploration sans récompense extrinsèque, où la curiosité pousse l'agent à explorer plus efficacement ;
et une généralisation à des scénarios invisibles (par exemple, nouveaux niveaux du même jeu) où la connaissance acquise grâce à une expérience antérieure aide l'agent à explorer de nouveaux endroits beaucoup plus rapidement que quand il est parti de zéro.

Ce type d'approche peut accélérer les temps d'apprentissage et améliorer l'efficacité des algorithmes, explique Max Jaderberg de DeepMind. La société a utilisé une technique similaire l'année dernière pour enseigner une IA à explorer un labyrinthe virtuel. Son algorithme a appris beaucoup plus rapidement que les approches d'apprentissage de renforcement conventionnelles. « Notre agent est beaucoup plus rapide et nécessite beaucoup moins d'expérience dans le monde pour s'entraîner, ce qui le rend beaucoup plus efficace », a-t-il déclaré.

tester la démo

Source : GitHub

Voir aussi :

Jeu de Go : AlphaGo prend sa retraite et pourrait ne plus participer à des compétitions, suite à sa récente victoire sur le numéro un mondial
Apple travaille en secret sur le « Neural Engine », une puce dédiée aux applications d'intelligence artificielle
Qui devra être tenu pour responsable si une intelligence artificielle fait un mauvais diagnostic induisant un médecin en erreur ?


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse

Avatar de Matthieu76 Matthieu76 - Membre habitué https://www.developpez.com
le 12/06/2017 à 15:55
Cela n'est que mon avis mais j'ai l'impression que c'est bien beau et très vendeur et que ce n'est pas vraiment exceptionnelle.

L'approche de Pathak n'est ni plus ni moins qu'une fonctionne de score mais qui n'est pas baser sur le score du jeu.

C'est que j'ai compris c'est :

Apprentissage par renfoncement :

  • le score du jeu augment c'est bien.
  • le score du jeu n'augment pas ou diminue, c'est pas bien.


Approche de Pathak :

  • les variables du jeu et le score varie c'est bien.
  • le score du jeu n'augment pas, c'est bof.
  • les variables du jeu ne varie pas, c'est pas bien.


En gros, c'est juste une manière différente de calculer le score de l'IA qui favorise l'exploration au détriment du score du jeu

Personnellement, je travaille sur les réseaux de neurones et j'ai l'impression que maintenant le plus difficile c'est de déterminer une bonne fonction de calcul d'erreur (donc de score).
Une très bonne fonction de calcul d'erreur va beaucoup aider l'IA en la guidant l'IA dans son apprentissage.

Après un autre moyen simple de mettre ce côté "curiosité", c'est de ne pas à chaque fois choisir la meilleur action mais de tirer les actions à effectuer de manière aléatoire en fonction de leur score.
Plus une action est considérer comme étant bonne plus l'action aura de chance d'être effectuer par L'IA mais l'IA effectura aussi des actions un peu moins bonne par moment ce qui renforce le côté exploration.
Contacter le responsable de la rubrique Accueil