Ce type d'approche, appelé apprentissage de renforcement, a été utilisé dans la conception d’AlphaGo, l'intelligence artificielle de la filiale de Google DeepMind qui a fait plier le meilleur joueur mondial cette semaine. Sur des milliers de jeux, l'algorithme AlphaGo a appris à poursuivre des stratégies qui ont conduit à la récompense ultime : une victoire.
Mais, dans le monde réel, l’apprentissage n’est pas toujours motivé par la récompense, explique Deepak Pathak, un scientifique de l’Université Berkely en Californie qui a développé le système : « Au lieu de cela, les humains ont une curiosité innée qui les aide à apprendre », indique-t-il. Ce qui peut, selon lui, être la raison pour laquelle les humains arrivent à maîtriser un large éventail de compétences sans nécessairement chercher à les apprendre.
Ainsi, Pathak s'est mis à insuffler à son propre algorithme d'apprentissage de renforcement un « sentiment de curiosité » pour voir si cela suffirait à lui permettre d'apprendre une gamme de compétences.
« Nous formulons la curiosité comme l'erreur dans la capacité d'un agent à prédire la conséquence de ses propres actions dans un espace de fonctionnalité visuel, appris par un modèle de dynamique inverse autosupervisé. Notre formulation évolue vers des espaces d'état continus à grande dimension comme des images, contourne les difficultés de prédiction directe des pixels et, de manière critique, ignore les aspects de l'environnement qui ne peuvent affecter l'agent », a-t-il expliqué.
L'algorithme de Pathak était récompensé lorsqu'il améliorait la compréhension de son environnement, en particulier les éléments qui l'ont directement affecté. Ainsi, plutôt que de chercher une récompense dans le monde du jeu, l'algorithme a été récompensé pour l'exploration et la maîtrise des compétences qui l'ont amené à en découvrir plus sur ce monde.
L'approche de Pathak a été évaluée dans deux environnements : VizDoom et Super Mario Bros. Trois grands paramètres sont étudiés :
une récompense extrinsèque éparse, où la curiosité permet de réduire considérablement les interactions avec l'environnement pour atteindre le but ;
une exploration sans récompense extrinsèque, où la curiosité pousse l'agent à explorer plus efficacement ;
et une généralisation à des scénarios invisibles (par exemple, nouveaux niveaux du même jeu) où la connaissance acquise grâce à une expérience antérieure aide l'agent à explorer de nouveaux endroits beaucoup plus rapidement que quand il est parti de zéro.
Ce type d'approche peut accélérer les temps d'apprentissage et améliorer l'efficacité des algorithmes, explique Max Jaderberg de DeepMind. La société a utilisé une technique similaire l'année dernière pour enseigner une IA à explorer un labyrinthe virtuel. Son algorithme a appris beaucoup plus rapidement que les approches d'apprentissage de renforcement conventionnelles. « Notre agent est beaucoup plus rapide et nécessite beaucoup moins d'expérience dans le monde pour s'entraîner, ce qui le rend beaucoup plus efficace », a-t-il déclaré.
tester la démo
Source : GitHub
Voir aussi :
Jeu de Go : AlphaGo prend sa retraite et pourrait ne plus participer à des compétitions, suite à sa récente victoire sur le numéro un mondial
Apple travaille en secret sur le « Neural Engine », une puce dédiée aux applications d'intelligence artificielle
Qui devra être tenu pour responsable si une intelligence artificielle fait un mauvais diagnostic induisant un médecin en erreur ?