Lors de sa création, les fondateurs de l’entreprise expliquaient que leurs chercheurs « ;seront fortement encouragés à publier leurs travaux que ce soit sous forme de documents, de messages blog, de code, et nos brevets (le cas échéant) seront partagés avec le monde ;». Quelques années se sont maintenant écoulées et il y a quelques jours, l’entreprise a annoncé la disponibilité d’un nouvel algorithme basé sur l’intelligence artificielle.
En effet, depuis quelques jours, OpenAI a annoncé la disponibilité d’un framework permettant aux robots d’apprendre en imitant ce qui leur est donné de voir. Généralement, pour qu’un système puisse maîtriser les différentes facettes d’une tâche et l'exécuter sans problèmes, cela nécessite d’effectuer des tests d’apprentissage sur un large éventail d’échantillons. OpenAI a donc souhaité aller encore plus vite dans l’apprentissage en permettant aux robots d’apprendre comme le font les humains.
Cela a donné naissance au framework d’apprentissage baptisé « ;one-shot imitation learning ;». Avec cet algorithme, un humain peut communiquer à un robot comment réaliser une nouvelle tâche après l’avoir exécutée dans un environnement de réalité virtuelle. Et à partir « ;d’une seule démonstration, le robot est capable d'exécuter la même tâche à partir d’une configuration arbitraire de départ ;».
En principe, les politiques sont des tâches spécifiques, écrivent les chercheurs dans leur publication. Ainsi l’on peut construire une politique par l’apprentissage d’imitation ou de renforcement pour empiler des blocs dans des tours de 3 ou n éléments. Mais avec ce nouvel algorithme, les chercheurs sont parvenus à concevoir des politiques qui ne sont pas spécifiques à une tâche particulière, mais plutôt peuvent être utilisées par un robot pour savoir ce qu’il faut faire dans une nouvelle situation d’une tâche, comme lorsque les blocs sont rangés de manière aléatoire.
Dans la vidéo ci-dessus, nous avons une démonstration de formation d’une politique qui résout une différente instance de la même tâche avec comme données d’apprentissage la simulation observée sur une autre démonstration.
Pour empiler les blocs, le robot utilise un algorithme soutenu par deux réseaux neuronaux, à savoir un réseau de vision et un réseau d’imitation. Le réseau de vision acquiert les aptitudes souhaitées en enregistrant dans une tâche des centaines d’images simulées avec différentes perturbations d’éclairage, textures et objets. Le réseau d’imitation quant à lui observe une démonstration, la traite, déduit la trajectoire des objets déplacés et ensuite accomplit l’intention en commençant avec des blocs rangés différemment.
En dessous du réseau d’imitation, nous avons un processus appelé « ;Soft attention ;» qui traite à la fois les différentes étapes et actions ainsi que les blocs appropriés à utiliser dans l’empilement et aussi les composants du vecteur spécifiant les emplacements des divers blocs dans l’environnement.
Les chercheurs expliquent que pour que le robot puisse apprendre une politique robuste, une quantité modeste de bruit a été introduite dans les résultats de la politique de script. Ceci a permis au robot d’accomplir correctement sa tâche même lorsque les choses tournent mal. Sans l’injection de ce bruit, le robot n’aurait pas pu généraliser ce qu’il a appris par l’observation d’une tâche spécifique.
Enfin, il faut savoir que bien que l’algorithme « ;one-shot imitation learning ;» ait été utilisé pour enseigner un robot à déplacer des blocs de cubes colorés, il peut être également utilisé pour d’autres tâches.
Source : OpenAI, Télécharger le rapport des chercheurs (PDF)
Et vous ?
Que pensez-vous de ce nouvel algorithme ;basé sur l'IA ?
Pourra-t-il se faire une place dans cet environnement ;?
Voir aussi
Des ténors de l'IT créent une entreprise à but non lucratif dédiée à l'IA afin de mettre l'IA au service de l'humanité
La Rubrique Algorithmique, Forum Intelligence Artificielle, Forum Cours et Tutoriels IA, FAQ Algorithmique