IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Nvidia a créé une réplique virtuelle de son PDG Jensen Huang qui a présenté une partie de la conférence
Durant laquelle a été évoqué son Omniverse en avril 2021

Le , par Stéphane le calme

422PARTAGES

9  0 
La société de processeurs graphiques Nvidia, fabricant de la GPU 3080 actuellement presque impossible à acheter, a présenté ses prouesses en matière d'animation par ordinateur en insérant une réplique virtuelle de son PDG dans un discours liminaire.

Mercredi, Nvidia a révélé dans un billet de blog que son PDG Jensen Huang n'avait pas fait la présentation principale lors de la conférence GTC de l'entreprise en avril. Au moins une partie était en fait dirigée par une réplique virtuelle de Huang, créée en numérisant Huang avec un camion plein d'appareils photo, puis en l'animant à l'aide d'une IA, selon la société. La cuisine de Huang, qui est devenue le lieu de discussion de Nvidia avec les clients et les investisseurs depuis le début de la pandémie, a également été entièrement générée par ordinateur. On ne sait pas exactement quelle partie du discours d'ouverture présente CGI Huang (ce qui rend la réplique si impressionnante), mais si vous passez à cette partie de la présentation, vous pouvez voir Huang disparaître comme par magie et sa cuisine exploser en plusieurs modèles 3D différents.


« Pour créer un Jensen virtuel, les équipes ont effectué un scan complet du visage et du corps pour créer un modèle 3D, puis ont formé une IA pour imiter ses gestes et ses expressions et ont appliqué de la magie de l'IA pour rendre son clone réaliste », a écrit Nvidia dans le billet. « Jensen Numérique a ensuite été amené dans une réplique de sa cuisine qui a été déconstruite pour révéler le holodeck dans Omniverse, surprenant le public et l'amenant à se demander dans quelle mesure la keynote était réelle ou rendue ».

Après avoir créé un modèle 3D de Jensen Huang en le photographiant sous tous les angles avec une pléthore d’appareils photo, un acteur vêtu d’une combinaison permettant de capturer les mouvements a relu les anciens discours du PDG en imitant ses mouvements. Cela a permis à Nvidia de créer 21 modèles de modélisations 3D qui ont tous été analysés pour créer un squelette virtuel convaincant. Un algorithme a en plus été entrainé à répliquer les mimiques du PDG pour rajouter une couche de réalisme.

Un logiciel appelé Audio2Face a ensuite été chargé de faire bouger le visage du clone en 3D pour coller au texte lu par le vrai Jensen Huang. Un autre programme nommé Audio2Gestures a permis à Nvidia d’animer les bras et le corps du mannequin virtuel selon ce qui était lu. En combinant ces deux technologies, le clone 3D a pu s’exprimer physiquement comme un véritable humain le ferait.


Nvidia a précisé dans son billet de blog que « seulement 14 secondes de l'heure et 48 minutes de présentation » étaient animées. Ces quelques secondes peuvent paraitre minimes par rapport à la durée totale de la conférence, mais elles ont demandé un travail titanesque.

La société a également publié mercredi une vidéo expliquant comment elle a fait le discours d'ouverture du GTC, qui comprenait une section sur la fabrication de Huang virtuel et de sa cuisine virtuelle.


Comme avec son projet « Digital Mark », l'entreprise veut montrer que l'on entre dans une ère où il est possible d'effectuer des rendus photo réalistes de scènes entières et que ses outils permettent de les concevoir. Elle précise d'ailleurs que tout le travail effectué sur la GTC a été réalisé via Omniverse, désormais ouvert aux développeurs.

Omniverse est une plateforme qui intègre divers outils permettant aux ingénieurs de créer des animations, que la société appelle un « métavers » pour les ingénieurs. En mai 2020, Jensen Huang a montré une démo d'Omniverse, où les ingénieurs peuvent travailler sur des conceptions dans un environnement virtuel, dans le cadre du discours d'ouverture de la GPU Technology Conference de Nvidia, un événement virtuel organisé en ligne ce mois-là. Plus de 30 000 personnes du monde entier s'étaient inscrites pour participer.

Omniverse est un outil virtuel qui permet aux ingénieurs de collaborer. Il s'inspire du concept de science-fiction du Métavers, un monde virtuel fictif décrit dans le roman Snow Crash, paru en 1992, de Neal Stephenson. Ce monde virtuel, créé artificiellement par un programme informatique, héberge une communauté d'utilisateurs présents sous forme d'avatars pouvant s'y déplacer, y interagir socialement et parfois économiquement.

« L'analogie avec le Métavers est excellente », a déclaré le directeur général des médias et du divertissement de Nvidia, Richard Kerris, lors d'un point de presse. « C’est en fait une analogie que nous utilisons beaucoup en interne. Vous pourrez collaborer n'importe où dans le monde dans cet environnement virtuel. Et votre flux de travail est essentiel, que vous soyez un utilisateur final ou un développeur. Nous sommes donc vraiment enthousiasmés par cette plateforme ».

Nvidia a travaillé sur la technologie pendant un certain temps, avec un accès anticipé d'une durée de 18 mois. L'Omniverse, qui n'était auparavant disponible qu'en mode d'accès anticipé, permet une simulation et une collaboration 3D photoréalistes. Il est destiné à des dizaines de millions de designers, ingénieurs, architectes et autres créateurs.

Ces évolutions rejoignent d'autres travaux de l'entreprise, sur l'animation de modèle 3D à partir d'un flux audio à travers Audio2Face, de réduction du poids des visioconférences, avec la possibilité de retravailler l'angle ou les gestuelles d'un visage en temps réel via vid2vid.

La société se propose d'utiliser une simple photo d'un intervenant et de l'utiliser pour créer un avatar numérique, qui serait animé selon les propos tenus, avec des mouvements du visage devant donner l'impression qu'il s'agit d'une prise de vue via une caméra, alors que ce n'est pas le cas. L'intérêt est évident en termes de bande passante puisque seul le flux audio est transféré, tout le travail d'animation étant traité localement par la GPU.


Source : Nvidia

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de jean12
Membre régulier https://www.developpez.com
Le 23/08/2021 à 14:27
L'objectif visé c'est la création future du Web 3.0 qui a été annoncé. On retrouvera en virtuel non seulement les personnes mais aussi les lieux (Entreprises scannées peut-être telles quelles avec GPS, etc. et virtualisées en ligne). Les avatars uniques des personnes pourront alors se rendre en ces lieux uniques aussi et faire même des transactions financières s'ils disposent de ressources suffisantes (interagir socialement et parfois économiquement). Ils pourront s'asseoir, échanger avec les autres avatars en chemin ou rencontrés, etc. Dans le test présenté ici, c'est Jensen Huang et sa cuisine qui ont été virtualisés. Au final, ce sont probablement toutes les infrastructures de la terre entière qui seront virtualisées sous le Web 3.0, et l'avatar de chacun sera sa propre identité sur le Web 3.0. Les interactions se feront en live avec les avatars. Ce n'est pas simplement des animations 3D (peut-on interagir avec la chanteuse pendant son chant? Cependant il est nécessaire d'améliorer encore davantage les choses).
1  0 
Avatar de Armitage1982
Membre du Club https://www.developpez.com
Le 13/08/2021 à 22:17
Sachant qu'il s'agit du tout grand NVidia, je trouve cette réplique virtuelle de piètre qualité.
La performance dessert complètement les sujets abordés, surtout si cela leur a demandé « un travail titanesque » comme le précise le billet.

Quand à Audio2Face et Audio2Gestures, le résultat est sans vie et non naturel.


Personne n'a ce genre de posture, on dirait la même qu'avait Donkey Kong dans DKTV.
D'ailleurs c'est tellement peu qualitatif qu'ils ne l'ont finalement pas utilisé comme présentateur de la keynote (d'où le probable faux raccord sur la veste en cuir qui n'est pas la même entre le début/fin et le milieu).

À titre de comparaison, Verizon vient tout juste de sortir un concert « Live » de Madison Beer.


Un concert qui est rendu en temps réel sous Unreal Engine et cela sans Terabyte-Scale Accelerated Computing.
Au début, je pensais que c'était de la réalité augmentée, car la chanteuse dépareille un peu avec le décor, mais en réalité non : elle est bien toute en image de synthèse.

Qu'ils réduisent le prix des cartes plutôt ! Là, ça serait une belle performance
0  0