La capacité à détecter les vidéos "deepfake" est considérée comme essentielle à la protection de la démocratie, car des individus et des dirigeants sans scrupules utilisent ces vidéos pour influencer les opinions politiques ou sociales. Il existe un certain nombre de méthodes permettant de détecter les vidéos deepfake. En 2019, des chercheurs basés à Stanford ont mis au point un outil capable de synchroniser les lèvres d'une personne dans une vidéo avec ce qui est dit, censé être utilisé pour les mésaventures de tournage et pour traduire des films dans d'autres langues. Après avoir vu la technique déployée dans l'arène politique, les chercheurs ont mis au point une technique permettant d'identifier la vidéo manipulée en détectant les discordances entre la vision et le phénome, c'est-à-dire une discordance entre la forme de la bouche d'une personne et le son émis à ce moment-là.
L'approche a fonctionné avec une précision de 80 %. Des chercheurs de l'université de Binghamton et d'Intel ont mis au point une technique appelée FakeCatcher qui détecte les variations subtiles de la coloration de la peau causées par un cœur qui bat, une technique utilisée par les smartwatches et les oxymètres de pouls pour détecter le rythme cardiaque, appelée photopléthysmographie (PSG). La technique fonctionne avec une précision de 90 %.
Si les techniques existantes sont raisonnablement précises lorsqu'il s'agit d'identifier des visages intervertis, il n'existe à ce jour aucune technique fiable pour identifier les vidéos où seules les expressions ont été manipulées, ce qui est la tâche la plus difficile. Le co-auteur de l'article, Amit Roy-Chowdhury, déclare : « Ce qui rend le domaine de la recherche sur les deepfakes plus difficile, c'est la concurrence entre la création, la détection et la prévention des deepfakes, qui deviendra de plus en plus féroce à l'avenir. Avec davantage de progrès dans les modèles génératifs, les deepfakes seront plus faciles à synthétiser et plus difficiles à distinguer des vrais ».
Pour la nouvelle technique, un réseau neuronal est divisé en deux composantes, l'une pour le suivi des régions avec les expressions, et l'autre chargée d'identifier la manipulation. La première branche fournit des informations sur les expressions faciales discernées, et qui contiennent les expressions telles que les yeux, la bouche ou le front à une deuxième branche, appelée encodeur-décodeur. L'encodeur-décodeur est chargé d'identifier si une manipulation a eu lieu et, le cas échéant, dans quelles régions.
Les deux premières colonnes montrent les images réelles et manipulées, les deux colonnes suivantes montrent les masques binaires des régions avec expressions, la dernière colonne montre les régions manipulées.
Ce dispositif, connu sous le nom d'Expression Manipulation Detection ou EMD, permet de localiser et de détecter les expressions manipulées. L'auteur principal de la recherche, Ghazal Mazaheri, déclare : « L'apprentissage multitâche peut tirer parti des caractéristiques importantes apprises par les systèmes de reconnaissance des expressions faciales pour améliorer la formation des systèmes conventionnels de détection des manipulations. Une telle approche permet d'obtenir des performances impressionnantes dans la détection de la manipulation des expressions faciales ». Les ensembles de données de référence utilisés pour l'étude sont basés sur des échanges d'expressions et d'identité, l'un transférant les expressions d'une vidéo source à une vidéo cible sans changer l'identité, tandis que l'autre échange l'identité dans une vidéo. L'EMD a démontré un haut degré de précision dans l'identification des vidéos manipulées, qu'il s'agisse de fausses identités ou d'expressions faciales.
Des ingénieurs informaticiens du MIT ont compilé un certain nombre d'extraits audio, vidéo et textuels "deepfake" que les ordinateurs ont trouvé particulièrement difficiles à détecter, et les ont hébergés sur un site appelé "Detect Fakes". Sur ce site, les utilisateurs intéressés peuvent se mettre au défi de trouver le contenu deepfake, qui a été mélangé en proportion égale avec du contenu réel. L'idée de ce site est de sensibiliser le public à la question du deepfake, car les informaticiens pensent qu'il sera de plus en plus difficile de détecter ce type de contenu grâce aux progrès de l'intelligence artificielle, et que les gens devront s'en remettre à des approches non techniques pour identifier ces médias.
Source : Detection and Localization of Facial Expression Manipulations
Et vous ?
Que pensez-vous de cette étude ?
Le nouvel outil détecte un deepfake avec une efficace à 99 %. Quel commentaire en faites-vous ?
Pensez-vous qu’une fois les limites de l’outil corrigées, les deepfakes ne devraient plus poser de problèmes à personne?
Voir aussi :
Des deepfakes mettant en scène Vladimir Poutine et Kim Jong-un sont utilisés dans une campagne publicitaire politique, non pas pour perturber les élections, « mais protéger le droit de vote »
Un nouvel outil de détection des "deepfakes" s'avère efficace à 94 %, en analysant les reflets de la lumière dans les yeux
Facebook supprime une vidéo deepfake du président ukrainien Volodymyr Zelenskyy se répandant sur le réseau social, et demandant aux troupes ukrainiennes de déposer les armes et de se rendre
Deepfake : les vidéos manipulées et parfaitement réelles pourront être créées par n'importe qui d'ici 6 à 12 mois, d'après Hao Li, un pionnier de cette technologie