Mercredi, Nvidia a révélé dans un billet de blog que son PDG Jensen Huang n'avait pas fait la présentation principale lors de la conférence GTC de l'entreprise en avril. Au moins une partie était en fait dirigée par une réplique virtuelle de Huang, créée en numérisant Huang avec un camion plein d'appareils photo, puis en l'animant à l'aide d'une IA, selon la société. La cuisine de Huang, qui est devenue le lieu de discussion de Nvidia avec les clients et les investisseurs depuis le début de la pandémie, a également été entièrement générée par ordinateur. On ne sait pas exactement quelle partie du discours d'ouverture présente CGI Huang (ce qui rend la réplique si impressionnante), mais si vous passez à cette partie de la présentation, vous pouvez voir Huang disparaître comme par magie et sa cuisine exploser en plusieurs modèles 3D différents.
« Pour créer un Jensen virtuel, les équipes ont effectué un scan complet du visage et du corps pour créer un modèle 3D, puis ont formé une IA pour imiter ses gestes et ses expressions et ont appliqué de la magie de l'IA pour rendre son clone réaliste », a écrit Nvidia dans le billet. « Jensen Numérique a ensuite été amené dans une réplique de sa cuisine qui a été déconstruite pour révéler le holodeck dans Omniverse, surprenant le public et l'amenant à se demander dans quelle mesure la keynote était réelle ou rendue ».
Après avoir créé un modèle 3D de Jensen Huang en le photographiant sous tous les angles avec une pléthore d’appareils photo, un acteur vêtu d’une combinaison permettant de capturer les mouvements a relu les anciens discours du PDG en imitant ses mouvements. Cela a permis à Nvidia de créer 21 modèles de modélisations 3D qui ont tous été analysés pour créer un squelette virtuel convaincant. Un algorithme a en plus été entrainé à répliquer les mimiques du PDG pour rajouter une couche de réalisme.
Un logiciel appelé Audio2Face a ensuite été chargé de faire bouger le visage du clone en 3D pour coller au texte lu par le vrai Jensen Huang. Un autre programme nommé Audio2Gestures a permis à Nvidia d’animer les bras et le corps du mannequin virtuel selon ce qui était lu. En combinant ces deux technologies, le clone 3D a pu s’exprimer physiquement comme un véritable humain le ferait.
Nvidia a précisé dans son billet de blog que « seulement 14 secondes de l'heure et 48 minutes de présentation » étaient animées. Ces quelques secondes peuvent paraitre minimes par rapport à la durée totale de la conférence, mais elles ont demandé un travail titanesque.
La société a également publié mercredi une vidéo expliquant comment elle a fait le discours d'ouverture du GTC, qui comprenait une section sur la fabrication de Huang virtuel et de sa cuisine virtuelle.
Comme avec son projet « Digital Mark », l'entreprise veut montrer que l'on entre dans une ère où il est possible d'effectuer des rendus photo réalistes de scènes entières et que ses outils permettent de les concevoir. Elle précise d'ailleurs que tout le travail effectué sur la GTC a été réalisé via Omniverse, désormais ouvert aux développeurs.
Omniverse est une plateforme qui intègre divers outils permettant aux ingénieurs de créer des animations, que la société appelle un « métavers » pour les ingénieurs. En mai 2020, Jensen Huang a montré une démo d'Omniverse, où les ingénieurs peuvent travailler sur des conceptions dans un environnement virtuel, dans le cadre du discours d'ouverture de la GPU Technology Conference de Nvidia, un événement virtuel organisé en ligne ce mois-là. Plus de 30 000 personnes du monde entier s'étaient inscrites pour participer.
Omniverse est un outil virtuel qui permet aux ingénieurs de collaborer. Il s'inspire du concept de science-fiction du Métavers, un monde virtuel fictif décrit dans le roman Snow Crash, paru en 1992, de Neal Stephenson. Ce monde virtuel, créé artificiellement par un programme informatique, héberge une communauté d'utilisateurs présents sous forme d'avatars pouvant s'y déplacer, y interagir socialement et parfois économiquement.
« L'analogie avec le Métavers est excellente », a déclaré le directeur général des médias et du divertissement de Nvidia, Richard Kerris, lors d'un point de presse. « C’est en fait une analogie que nous utilisons beaucoup en interne. Vous pourrez collaborer n'importe où dans le monde dans cet environnement virtuel. Et votre flux de travail est essentiel, que vous soyez un utilisateur final ou un développeur. Nous sommes donc vraiment enthousiasmés par cette plateforme ».
Nvidia a travaillé sur la technologie pendant un certain temps, avec un accès anticipé d'une durée de 18 mois. L'Omniverse, qui n'était auparavant disponible qu'en mode d'accès anticipé, permet une simulation et une collaboration 3D photoréalistes. Il est destiné à des dizaines de millions de designers, ingénieurs, architectes et autres créateurs.
Ces évolutions rejoignent d'autres travaux de l'entreprise, sur l'animation de modèle 3D à partir d'un flux audio à travers Audio2Face, de réduction du poids des visioconférences, avec la possibilité de retravailler l'angle ou les gestuelles d'un visage en temps réel via vid2vid.
La société se propose d'utiliser une simple photo d'un intervenant et de l'utiliser pour créer un avatar numérique, qui serait animé selon les propos tenus, avec des mouvements du visage devant donner l'impression qu'il s'agit d'une prise de vue via une caméra, alors que ce n'est pas le cas. L'intérêt est évident en termes de bande passante puisque seul le flux audio est transféré, tout le travail d'animation étant traité localement par la GPU.
Source : Nvidia