Face2Face : une application qui permet de truquer des vidéos en temps réel

En modifiant en direct les expressions du visage de la cible

Le 2016-03-25 13:39:47, par Michael Guilloux, Chroniqueur Actualités

Des chercheurs de Stanford University, University of Erlangen-Nuremberg et Max-Planck-Institute for Informatics, ont développé une application baptisée Face2Face. Celle-ci met en évidence des progrès significatifs dans le domaine de la modélisation 3D pour la reconstitution faciale. Avec leur application, les chercheurs mettent en œuvre une nouvelle approche de reconstitution en temps réel du visage d’une vidéo.

Face2Face permet à un acteur d’animer en direct les expressions d’un visage dans une vidéo cible. Pour cela, l’acteur capture à partir de sa webcam les expressions faciales de son propre visage qu’il veut faire paraître sur le visage de sa cible. L’application se charge ensuite de transférer ces expressions de manière rapide et efficace sur le visage de la cible en direct, et la vidéo cible est reconstituée en temps réel.

Contrairement aux approches de reconstitution faciale existantes qui fonctionnent en mode hors connexion, celle utilisée par ces chercheurs vise à transférer en ligne des expressions faciales d’un acteur source vers un acteur cible. Les chercheurs utilisent également une caméra équipée d’un simple capteur RVB plutôt qu’une caméra équipée d’un capteur de profondeur.

Leur objectif est de modifier la vidéo cible de manière photo-réaliste, de telle sorte qu’il soit pratiquement impossible de remarquer les manipulations. Les chercheurs ont démontré leur méthode dans une configuration en direct, où des vidéos YouTube ont été reconstituées en temps réel.

Sources : Stanford, Face2Face: Real-time Face Capture and Reenactment of RGB Videos (pdf)

Et vous ?

Qu’en pensez-vous ?

Voir aussi :

Un étudiant développe un programme de capture de mouvements, Predator est sous licence GPL et ne demande qu'une Webcam

Discussion forum

3 commentaires

souviron34
Expert éminent sénior

J'avais travaillé en ...........1991-1992..... sur un sujet connexe (la manipulation en direct d'images de télé (changer les pubs lors de la retransmission d'évènements sportifs, que ce soit sur les banderoles/panneaux mais aussi directement sur les motos, voitures, vélos, etc (pour la 5 et Hachette/Matra **))..

Ca marchait parfaitement avec 3 trames de retard seulement (un peu plus de 1/24 ième de seconde, donc vraiment insensible pour le téléspectateur).. Même remplacer la pub sur une F1 en pleine course des 24h, sur une moto en plein Castelet, ou pendant un match de Rolland-Garros....

Et déjà à l'époque, étant donné que les modélisations 3D donnaient le fait que l'expression d'un visage tient par 3 points seulement, ça nous avait posé problème... fondamental..

Depuis ce jour, je suis toujours assez dubitatif par rapport à ce que je vois, même en direct.. surtout quand on est en pleine période de propagande (Irak, avant l'intervention et après, Libye ou Syrie, Ukraine,...)

Là c'est juste le clou qui ferme définitivement le cercueil.... Ca va devenir impossible de croire à quoi que ce soit... chaque fois que c'est dans un contexte un tant soit peu "délicat" et qu'il n'y a qu'une seule source...

** : http://195.46.210.103/solutions/broadcast/editorialenhancement/graphics.html https://cordis.europa.eu/esprit/src/23483.htm

le 02/04/2016 à 16:13
Grogro
Membre extrêmement actif

Ca promet d'élever la manipulation de l'information à des niveaux encore inédits.

le 01/04/2016 à 13:49
RedGuff
Membre habitué

Cela permet de faciliter le doublage des films, avec une meilleure synchronisation des lèvres.

le 02/04/2016 à 2:04