Developpez.com

Le Club des Développeurs et IT Pro

IA : des chercheurs de Google développent un algorithme capable de créer des scènes 3D

à partir d'images bidimensionnelles

Le 2018-07-02 02:01:26, par Bill Fassinou, Chroniqueur Actualités
Un groupe de chercheurs de DeepMind, une succursale de Google spécialisée dans l'intelligence artificielle, avec à sa tête Ali Eslami et Danilo Rezende, a développé un algorithme capable de faire une représentation 3D, ne serait-ce que pour des scènes géométriques simplifiées. L’algorithme, baptisé « generative query network (GQN) » se sert d’un réseau de neurones profonds pour créer une représentation mathématique d’une scène, puis se base sur cette représentation pour imaginer la scène sous des angles qu’il n’avait encore jamais vus.


Il convient de préciser que les chercheurs n’ont fourni à l’algorithme aucune donnée de base sur le genre d’environnements qu’il aurait à traiter. C’est à force d’examiner une grande quantité d’images de scènes similaires que l’algorithme est en mesure de développer l’intuition que les humains acquièrent après des années d’observation des éléments du monde réel. Techniquement, on pourrait dire que l’algorithme apprend en autodidacte.

Le GQN est constitué de deux réseaux neuronaux complémentaires et connectés l’un à l’autre. Le premier, le réseau de représentation, ingère un lot d’images décrivant une scène (avec la position de la camera pour chacune d’entre elles) et le condense en une représentation mathématique compacte de la scène. Le second, le réseau de génération, se charge de faire l’inverse. Il part de la représentation pour, en se focalisant sur une seule position de caméra, recréer une image représentative de ce à quoi la scène aurait ressemblé si elle avait été examinée de cet angle.


Partant de représentations de scènes qu’il a vues, le GQN prend en compte un angle de la scène qu’il n’a jamais vu pour créer un rendu assez proche de ce qu’aurait été une vraie image de la scène sous cet angle. Il apparaît clairement que le GQN est une grande avancée, mais n’oublions pas que ce n’est qu’un algorithme. Il peut, certes, faire des rendus exceptionnellement proche de la réalité, mais il ne peut pas faire de miracles. Si par exemple, sur les images ingérées par le réseau de représentation, certains éléments de la scène sont cachés, l’algorithme n’a absolument aucun moyen de déterminer et de faire un rendu des éléments manquants.

Source : DeepMind

Et vous ?

Que pensez-vous de cette nouvelle prouesse dans le domaine de l'IA ?
Quelles pourraient en être les domaines d'applications ?

Voir aussi

Une IA aurait permis de commencer à percer les mystères entourant le manuscrit de Voynich considéré comme le plus important cryptogramme non résolu

Des experts prédisent que l'IA va dominer les humains dans moins de 50 ans selon une étude menée par les deux universités Harvard et Yale

Intelligence artificielle : Facebook publie en open source ELF OpenGo, son IA qui a battu d'autres IA au jeu de Go, ainsi que des professionnels

Des experts en IA boycottent un projet de robots tueurs d'une université en Corée du Sud en partenariat avec le fabricant d'armes Hanwha Systems

IA : pourquoi la France aurait-elle du mal à concurrencer les GAFA ? Un entretien avec Noël Paganelli, cofondateur de l'école de code La Capsule
  Discussion forum
17 commentaires
  • > La flemme de débattre avec toi, dans ce cas quand mon IA reçois 60 variables en entrée, elle travaille en 60 dimensions ??? Oui si tu veux mais là on parle de dimensions géométriques et de modélisation, ce n'est pas la même chose... Enfin bref, tu parles mais je suis sur que tu n'as jamais étudier les réseaux de neurones ni la modélisation 3D... BREF ...
    1. oui
    et c'est pour ca qu'on a des algorithmes de réduction de dimensions...
    c'est pour ca qu'on a des pca, des cnn, etc...
    2. c'est mieux si tu peux contenir l'agressivité. merci!
    3. si c'est si évident qu'on parle de dimensions géométriques (yen a que 3, vraiment?), alors oui prédire en 4d avec une dimension qui n'est pas une "dimension géométrique" (par ta def) n'a pas de sens...

    > je veux bien que l'on détermine le facteur temps comme une dimension ... tout ceci ne nous en donneras que 4°

    Si on prend la photo de départ, on peut associer une 3eme dimension qui est par exemple... la chaleur.
    En tout point (x,y) de l'image on peut deviner la chaleur (par ex avec l'ensoleillement, l'ombre, les motifs végétaux, ...)

    On s'éloigne de l'article original, ce que je veux dire c'est que on a un peu plus que 3D dans la vie, je présume qu'on "définit" le monde en 3D parce que x,y,z sont les dimensions les plus "palpables" mais quand 23JFK se fait rembarrer c'est quand même discutable

    >quand au réseaux de neurone on parleras de couche
    c'est bien tenté mais les couches on s'en fou un peu tu peux augmenter les dim comme les réduires... et tu peux mettre autant de couche que tu veux tout ce que ca dit c'est que tu travailles dans un espace de dimensions (...) plus grand, mais ce qui "importe" c'est ton espace de départ (l'entrée) et celui de la sortie
  • 23JFK
    Membre expert
    Faudrait tester l'IA sur un espace de dimensions supérieur à 3, si elle parvenait à maîtriser un tel environnement, ce serait probablement la première fois qu'une IA serait capable de faire ce qu'aucun humain ne sait faire.
  • macslan
    Membre éclairé
    tu entends quoi par là ?
  • vanskjære
    Membre averti
    Je suis tout aussi perplexe.
    Car faire travailler sur 4 dimensions ou plus pour voir si l'IA sait le faire. Et donc savoir si l'IA peut faire mieux de l'humain.
    Si c'est le cas le résultat que l'IA nous donnerai ne serais pas vérifiable car on ne saurait pas interpréter.
    Ou même l'IA ne serais pas en mesure de nous fournir un résultat dans un état qui soit intacte (sans perte de dimension et de donnée) et à notre porté de compréhension.
  • macslan
    Membre éclairé
    Mais aussi quels autres dimensions
  • 23JFK
    Membre expert
    Envoyé par Matthieu76
    ...
    Si je vous demande de visualiser quatre cubes accolés les uns aux autres par une ou deux faces et d'en dessiner une vue de perspective : vous pouvez le faire (enfin j'espère). Maintenant si je reprends un énoncé analogue en remplaçant les cubes par des hypercubes accolés les uns aux autres par une, deux ou trois faces en vous demandant de me faire un schéma en perspective d'un patron d'un tel assemblage, je doute que vous en soyez capable, cependant, il reste possible par de "laborieux" calculs de vérifier si vous avez réussi l'exercice.

    Ajout :

    Concernant star wars, il me semble que quasiment tous les décors sont sur fond vert (autrement dit : en images de synthèse) et/ou retouchés par ordinateur, donc, les jeux star wars peuvent déjà réutiliser les environnements des films sans qu'il soit nécessaire de chercher à les recréer (sauf (et encore?...) pour les épisodes tournés dans les années 70-80).
  • Aiekick
    Membre extrêmement actif
    le seul interet que je voit a l'ia c'est qu'elle aille plus loin que nous, qu'elle nous fasse appréhender des choses que l'on n'avait pas imaginer, voir nous donne une représentation d'une chose qu'on ne voyait pas.

    arrêtez de faire les frustrés, au début on ne saurais peu être pas verifier si c'est bon mais peu importe ca nous feras progresser.

    c'est comme en physique. quand on confirme par l’expérience quelque chose que la théorie prévois on est dans une impasse. si ,au contraire ça nous montre quelque chose qu'on avait pas théorisé. c'est génial, et on progresse.
  • > Ce n'est pas très pertinent, cela n’apporterait rien au projet et je ne suis pas sur que tu comprends toi même ce que tu veux dire. D'ailleurs si aucun humain ne sait le faire, comment évaluer la pertinence du résultat que fournirait l'IA ?

    Un exemple très concret que je suis pas sûr que ca existe: En chirurgie optique, il y a la transprk. Un des arguments de vente du laser permettant l'opération est qu'il y a un tracker des mouvements de l'oeil (pour corriger le laser)
    Ce tracker est dit opérant en 7 dimensions. (http://www.schwind-amaris.com/en/hom...en-dimensions/)

    Pourquoi ne pas tenter de prédire à partir d'une image: où va bouger l'oeil? Dans quelles dimensions, de combien de radians/um

    Pour information l'IA est déjà capable de prédire en n dimensions.
    Si tu regardes les Gans, tu peux voir que d'une matrice de pixels le gan peut prédire l'original (plus ou moins...) (et la dimension est de l'ordre
    de mn (pour une image de taille mxn) (même si evidemment il y a corrélations locales...)
  • Matthieu76
    Membre éclairé
    Ne pas confondre dimension et variable !
  • vanskjære
    Membre averti
    Dire de la rotation autour d'un axe que c'est une dimension....On ne peux pas parler de 7 dimensions car c'est pas correct.

    Au passage une vidéo qui est la première d'une série sur la quatrième dimension

    Même de façon simplifié comme il le fait présente ça fait travailler/fondre les neurones.

    Sinon pour en revenir une dernière fois avec cette histoire de nombre de dimension. Nous percevons en trois dimensions et ne pouvons pas en visualiser au delà.
    Cet IA permet de faire une construction 3D à partir de plusieurs images 2D. Construction 3D que l'on va visualiser sur un support 2D, l'écran... bref c'est un beau métier que l'informatique mais on a quand même les limites de la physique pour ce qui est de la visualisation.
    On peux effectivement faire des calculs savant pour savoir le volume d'un hypercube....mais là on parle de création d'une vue 3D qui est notre limite de visualisation.