
après une minute d'écoute de la voix originale
La start-up canadienne Lyrebird a développé une API capable d’imiter la voix d’un individu. Elle a franchi une nouvelle étape dans le développement des technologies reposant sur l’intelligence artificielle en proposant aux entreprises et développeurs de nouveaux outils de synthèse de la parole. Les utilisateurs de Lyrebird pourront notamment générer des dialogues entiers dans une voix de leur choix ou synthétiser de nouvelles voix créées de toutes pièces.
L'API de Lyrebird est conceptuellement similaire à la technologie Adobe VoCo d'Adobe, qui a été présentée l'année dernière, bien qu'il semble y avoir des différences notables. Par exemple, tandis que VoCo semble exiger des ressources système pour reproduire des voix, l'API de Lyrebird s'appuie sur des ressources cloud. « Nos clusters GPU génèrent 1000 phrases en moins d'une demi-seconde », affirme la start-up.
VoCo doit également « écouter » au moins 20 minutes l'audio original pour synthétiser la voix, mais Lyrebird assure que, dès la première minute, son algorithme est en mesure de « comprimer l'ADN vocal en une clé unique [et] utiliser cette clé pour générer un élément audio avec la voix correspondante ».
La société va plus loin et promet qu’elle va inclure la capacité de « contrôler l'émotion de la voix générée », en y infusant de la colère, de la sympathie, du stress et d'autres émotions pour rendre la voix plus naturelle.
Lyrebird a publié de nombreux échantillons d'enregistrements audio synthétisés sur son site Web, mais a rappelé que l'API est encore en cours de développement et invite des bêta testeurs à faire partie de son programme. Sur son site, elle a par exemple synthétisé la voix de Barack Obama et Donald Trump : « Pour chaque orateur, nous avons eu moins d'une minute d'enregistrement audio original. Les échantillons générés sont des phrases qui n’ont jamais été prononcées par leur orateur respectif ».
La start-up a évoqué de nombreux champs d’application dans lesquels son algorithme pourrait trouver un débouché : les assistants personnels, la lecture de livres audio, les objets connectés, la synthèse de voix pour des personnes en situation de handicap, la réalisation de films ou de jeux vidéo.
Mais cette technologie pourrait être utilisée à d’autres fins bien moins honorables. D’ailleurs, couplé à une technologie comme Face2Face, un projet de chercheurs de l’université américaine de Stanford, en collaboration avec des équipes de l’université allemande d’Erlangen-Nuremberg et de l’institut Max Planck à Leipzig, qui consiste à modifier en temps réel les expressions d’un visage, l’ensemble pourrait avoir des conséquences désastreuses. Imaginez par exemple une vidéo falsifiée d’une figure populaire, qu’elle soit de la classe politique, technologique ou autres, et qui se lance dans une tirade. L’impact serait encore plus prononcé que celui des fausses actualités.
Dans la vidéo ci-dessous, les expressions d’un acteur captées par une simple webcam sont appliquées sur le visage de George Bush, de Vladimir Poutine ou de Donald Trump dans des vidéos prises sur YouTube.
Ce qui soulève donc certaines inquiétudes sur lesquelles Lyrebird n’a pas peur de s’exprimer. Sur sa page éthique, la start-up indique que « Notre technologie remet en question la validité de telles preuves, car elle permet de manipuler facilement des enregistrements audio. Cela pourrait avoir des conséquences dangereuses telles que de fausses déclarations de diplomates, la fraude et plus généralement tout autre problème causé en volant l'identité d’un individu.
En lançant publiquement notre technologie et en la mettant à la disposition de tous, nous voulons nous assurer qu'il n'y aura pas de tels risques. Nous espérons que tout le monde sera bientôt conscient qu'une telle technologie existe et que la copie de la voix de quelqu'un d'autre est possible. Plus généralement, nous voulons attirer l'attention sur le manque de preuves que les enregistrements audio peuvent représenter dans un proche avenir ».
Lyrebird s’appuie sur des modèles d’apprentissage profond développés au laboratoire du MILA de l’Université de Montréal, où ses trois fondateurs sont doctorants : Alexandre de Brébisson, Jose Sotelo et Kundan Kumar.

Source : Lyrebird
Vous avez lu gratuitement 616 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.