
Il convient de préciser que les chercheurs n’ont fourni à l’algorithme aucune donnée de base sur le genre d’environnements qu’il aurait à traiter. C’est à force d’examiner une grande quantité d’images de scènes similaires que l’algorithme est en mesure de développer l’intuition que les humains acquièrent après des années d’observation des éléments du monde réel. Techniquement, on pourrait dire que l’algorithme apprend en autodidacte.
Le GQN est constitué de deux réseaux neuronaux complémentaires et connectés l’un à l’autre. Le premier, le réseau de représentation, ingère un lot d’images décrivant une scène (avec la position de la camera pour chacune d’entre elles) et le condense en une représentation mathématique compacte de la scène. Le second, le réseau de génération, se charge de faire l’inverse. Il part de la représentation pour, en se focalisant sur une seule position de caméra, recréer une image représentative de ce à quoi la scène aurait ressemblé si elle avait été examinée de cet angle.
Partant de représentations de scènes qu’il a vues, le GQN prend en compte un angle de la scène qu’il n’a jamais vu pour créer un rendu assez proche de ce qu’aurait été une vraie image de la scène sous cet angle. Il apparaît clairement que le GQN est une grande avancée, mais n’oublions pas que ce n’est qu’un algorithme. Il peut, certes, faire des rendus exceptionnellement proche de la réalité, mais il ne peut pas faire de miracles. Si par exemple, sur les images ingérées par le réseau de représentation, certains éléments de la scène sont cachés, l’algorithme n’a absolument aucun moyen de déterminer et de faire un rendu des éléments manquants.
Source : DeepMind
Et vous ?


Voir aussi




