Google développe une IA capable de reconnaître et isoler une voix dans une foule
Une aptitude réservée auparavant aux humains

Le , par Coriolan

76PARTAGES

12  0 
Pour les humains, il est tout à fait facile de concentrer leur attention sur la voix d’une personne même dans un environnement bruyant, tout en restant attentif aux autres signaux sonores. En psychoacoustique, on appelle ça l’effet cocktail party, une capacité remarquable qui est naturelle aux humains, mais qui constitue un défi pour les ordinateurs.


Mais grâce au progrès rapide de l’intelligence artificielle, les machines auront peut-être la même capacité, c’est ce qu’a illustré Google en développant une nouvelle IA capable de reconnaître et isoler des voix dans une foule.

Dans un document publié par le géant de la recherche, il présente un modèle d’apprentissage approfondi audiovisuel pour isoler un seul signal vocal d’une combinaison de sons comme d’autres voix et le bruit de fond.

« Dans ce travail, nous sommes en mesure de produire de façon computationnelle des vidéos dans lesquelles le discours de personnes spécifiques est rehaussé alors que tous les autres sons sont supprimés, » explique Google. « Notre méthode fonctionne sur des vidéos ordinaires avec une seule piste audio, et tout ce que l’utilisateur doit faire est de sélectionner le visage d’une personne dans la vidéo qu’il veut entendre, ou mettre en sorte que la personne soit sélectionnée algorithmiquement selon le contexte. »


Mais comment Google a-t-il réussi cette prouesse technique ? En fait, c’est en grande partie grâce au deep learning. Les ingénieurs de Google ont rassemblé une large collection de 100 000 vidéos de haute qualité issues de YouTube.

En utilisant ces données, les ingénieurs ont pu entraîner l’IA à analyser une écoute et la diviser en autant de pistes audio que nécessaire. La particularité de ce système est qu’il analyse aussi l’image. Il s’appuie sur le mouvement du visage des gens lorsqu’ils parlent pour distinguer des voix spécifiques. Le signal visuel améliore non seulement la qualité de la séparation audio, mais permet aussi d’associer les pistes audio avec le locuteur visible dans la vidéo. Au final, des segments propres de discours ont été extraits, pas moins de 2000 heures de vidéo ont été nettoyées, chacune avec une seule personne visible à la caméra et en train de parler sans interférence en arrière-plan.

Google a publié quatre vidéos illustrant comment fonctionne cette IA et les résultats sont plutôt bons, voire bluffants quand il s’agit d’un débat entre deux personnes. Grâce à cet outil, il est tout à fait possible de sélectionner une seule personne dans une vidéo et isoler parfaitement sa voix pour n’écouter que celle-ci, même si le bruit de fond est important.

Google explique que cette technologie va améliorer les sous-titres automatiques des vidéos, notamment sur YouTube. Cette IA pourrait aussi servir aux services de chat vidéo comme Hangouts ou Duo pour améliorer la qualité des appels vidéo. Elle pourrait aussi améliorer considérablement l'accessibilité. Pour le moment, Google explore toujours les applications potentielles de cette technologie.

Source : blog Google

Et vous ?

Quelles applications suggérez-vous pour cette technologie ?

Voir aussi :

Chine : la police se sert de la reconnaissance faciale pour arrêter un fugitif, la fiction Big Brother de 1984 est-elle devenue une réalité en 2018 ?
La police chinoise teste des lunettes connectées capables d'identifier les suspects en scannant les visages et les plaques d'immatriculation

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 19/04/2018 à 14:15
Citation Envoyé par Coriolan Voir le message
Quelles applications suggérez-vous pour cette technologie ?
Pour sampler des vocals à partir de différentes sources. (en français on doit dire "échantillonner des chants" j'imagine)
En gros on pourrait presque récupérer un acapella propre à partir d'un morceau.
Ce serait l'utilisation la plus sympa qu'on puisse en faire.

Mais c'est flippant comme technologie je trouve.
Ça va peut être finir en outil de surveillance de masse où on pourra savoir ce que quelqu'un dans une foule dit.
Avatar de onilink_
Membre éprouvé https://www.developpez.com
Le 19/04/2018 à 14:31
Cool, on va enfin pouvoir virer les rires en fond des séries américaines.

Impressionnant en tout cas.
Avatar de AoCannaille
Membre émérite https://www.developpez.com
Le 19/04/2018 à 14:43
Citation Envoyé par onilink_ Voir le message
Cool, on va enfin pouvoir virer les rires en fond des séries américaines.

Impressionnant en tout cas.
je pense que techniquement c'est beaucoup plus simple, étant donné qu'il y a max 5 rires différents...
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 19/04/2018 à 14:49
Citation Envoyé par onilink_ Voir le message
Cool, on va enfin pouvoir virer les rires en fond des séries américaines.
Dans certaines sitcom des rires sont ajoutés, mais c'est un vieux procédé qui devrait tendre à disparaitre si ceux qui produisent les sitcoms étaient moins cons.

Ça fait bizarre de voir quelque chose comme The Big Bang Theory sans les rires (remarque c'est également bizarre de regarder avec les rires) :

Les personnages attendent.
Avatar de datalandia
Bot Troll en alpha-test https://www.developpez.com
Le 19/04/2018 à 15:01
Citation Envoyé par onilink_ Voir le message
Cool, on va enfin pouvoir virer les rires en fond des séries américaines.

Impressionnant en tout cas.
et comment on saura quand es ce qu'il faut rire ?
Avatar de lsbkf
Membre régulier https://www.developpez.com
Le 19/04/2018 à 21:04
Pour les humains, il est tout à fait facile de concentrer leur attention sur la voix d’une personne même dans un environnement bruyant, tout en restant attentif aux autres signaux sonores.
Je ne doute pas de notre capacité à le faire à un certain degré, mais vous avez des sources sur la facilité de la chose ?
Contacter le responsable de la rubrique Accueil

Partenaire : Hébergement Web