Google développe une IA capable de reconnaître et isoler une voix dans une foule

Une aptitude réservée auparavant aux humains

Le 19 avril 2018 à 13:56, par Coriolan

461PARTAGES

Google développe une IA capable de reconnaître et isoler une voix dans une foule
Une aptitude réservée auparavant aux humains

Pour les humains, il est tout à fait facile de concentrer leur attention sur la voix d’une personne même dans un environnement bruyant, tout en restant attentif aux autres signaux sonores. En psychoacoustique, on appelle ça l’effet cocktail party, une capacité remarquable qui est naturelle aux humains, mais qui constitue un défi pour les ordinateurs.

Mais grâce au progrès rapide de l’intelligence artificielle, les machines auront peut-être la même capacité, c’est ce qu’a illustré Google en développant une nouvelle IA capable de reconnaître et isoler des voix dans une foule.

Dans un document publié par le géant de la recherche, il présente un modèle d’apprentissage approfondi audiovisuel pour isoler un seul signal vocal d’une combinaison de sons comme d’autres voix et le bruit de fond.

« Dans ce travail, nous sommes en mesure de produire de façon computationnelle des vidéos dans lesquelles le discours de personnes spécifiques est rehaussé alors que tous les autres sons sont supprimés, » explique Google. « Notre méthode fonctionne sur des vidéos ordinaires avec une seule piste audio, et tout ce que l’utilisateur doit faire est de sélectionner le visage d’une personne dans la vidéo qu’il veut entendre, ou mettre en sorte que la personne soit sélectionnée algorithmiquement selon le contexte. »

Mais comment Google a-t-il réussi cette prouesse technique ? En fait, c’est en grande partie grâce au deep learning. Les ingénieurs de Google ont rassemblé une large collection de 100 000 vidéos de haute qualité issues de YouTube.

En utilisant ces données, les ingénieurs ont pu entraîner l’IA à analyser une écoute et la diviser en autant de pistes audio que nécessaire. La particularité de ce système est qu’il analyse aussi l’image. Il s’appuie sur le mouvement du visage des gens lorsqu’ils parlent pour distinguer des voix spécifiques. Le signal visuel améliore non seulement la qualité de la séparation audio, mais permet aussi d’associer les pistes audio avec le locuteur visible dans la vidéo. Au final, des segments propres de discours ont été extraits, pas moins de 2000 heures de vidéo ont été nettoyées, chacune avec une seule personne visible à la caméra et en train de parler sans interférence en arrière-plan.

Google a publié quatre vidéos illustrant comment fonctionne cette IA et les résultats sont plutôt bons, voire bluffants quand il s’agit d’un débat entre deux personnes. Grâce à cet outil, il est tout à fait possible de sélectionner une seule personne dans une vidéo et isoler parfaitement sa voix pour n’écouter que celle-ci, même si le bruit de fond est important.

Google explique que cette technologie va améliorer les sous-titres automatiques des vidéos, notamment sur YouTube. Cette IA pourrait aussi servir aux services de chat vidéo comme Hangouts ou Duo pour améliorer la qualité des appels vidéo. Elle pourrait aussi améliorer considérablement l'accessibilité. Pour le moment, Google explore toujours les applications potentielles de cette technologie.

Source : blog Google

Et vous ?

Quelles applications suggérez-vous pour cette technologie ?

Voir aussi :

Chine : la police se sert de la reconnaissance faciale pour arrêter un fugitif, la fiction Big Brother de 1984 est-elle devenue une réalité en 2018 ?

La police chinoise teste des lunettes connectées capables d'identifier les suspects en scannant les visages et les plaques d'immatriculation

Vous avez lu gratuitement 22 355 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google développe une IA capable de reconnaître et isoler une voix dans une foule

Une aptitude réservée auparavant aux humains

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Google développe une IA capable de reconnaître et isoler une voix dans une foule Une aptitude réservée auparavant aux humains

Google développe une IA capable de reconnaître et isoler une voix dans une foule

Une aptitude réservée auparavant aux humains