
à partir d'images bidimensionnelles
Un groupe de chercheurs de DeepMind, une succursale de Google spécialisée dans l'intelligence artificielle, avec à sa tête Ali Eslami et Danilo Rezende, a développé un algorithme capable de faire une représentation 3D, ne serait-ce que pour des scènes géométriques simplifiées. L’algorithme, baptisé « generative query network (GQN) » se sert d’un réseau de neurones profonds pour créer une représentation mathématique d’une scène, puis se base sur cette représentation pour imaginer la scène sous des angles qu’il n’avait encore jamais vus.
Il convient de préciser que les chercheurs n’ont fourni à l’algorithme aucune donnée de base sur le genre d’environnements qu’il aurait à traiter. C’est à force d’examiner une grande quantité d’images de scènes similaires que l’algorithme est en mesure de développer l’intuition que les humains acquièrent après des années d’observation des éléments du monde réel. Techniquement, on pourrait dire que l’algorithme apprend en autodidacte.
Le GQN est constitué de deux réseaux neuronaux complémentaires et connectés l’un à l’autre. Le premier, le réseau de représentation, ingère un lot d’images décrivant une scène (avec la position de la camera pour chacune d’entre elles) et le condense en une représentation mathématique compacte de la scène. Le second, le réseau de génération, se charge de faire l’inverse. Il part de la représentation pour, en se focalisant sur une seule position de caméra, recréer une image représentative de ce à quoi la scène aurait ressemblé si elle avait été examinée de cet angle.
Partant de représentations de scènes qu’il a vues, le GQN prend en compte un angle de la scène qu’il n’a jamais vu pour créer un rendu assez proche de ce qu’aurait été une vraie image de la scène sous cet angle. Il apparaît clairement que le GQN est une grande avancée, mais n’oublions pas que ce n’est qu’un algorithme. Il peut, certes, faire des rendus exceptionnellement proche de la réalité, mais il ne peut pas faire de miracles. Si par exemple, sur les images ingérées par le réseau de représentation, certains éléments de la scène sont cachés, l’algorithme n’a absolument aucun moyen de déterminer et de faire un rendu des éléments manquants.
Source : DeepMind
Et vous ?


Voir aussi





Vous avez lu gratuitement 9 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.