Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La reconnaissance vocale de Microsoft peut maintenant rivaliser avec des humains
Avec un taux d'erreurs de transcription comparable ou inférieur

Le , par Coriolan

60PARTAGES

9  0 
Microsoft a développé un système de reconnaissance vocale capable de transcrire les mots d'une conversation aussi efficacement qu’un transcripteur professionnel humain. Dans un document publié ce lundi, une équipe de chercheurs et d’ingénieurs de Microsoft Artificial Intelligence and Research a annoncé que ce système réalise un taux d’erreurs de transcription comparable ou inférieur à celui des transcripteurs professionnels. Ce taux est passé de 6,3 % à 5,9 % en un mois.

Avec ce résultat, la solution de reconnaissance vocale de Microsoft a réalisé le taux d’erreurs de transcription le plus bas jamais enregistré dans l’industrie faisant mieux que toutes les autres solutions du marché. De même, ce taux est également égal à celui réalisé par les personnes qui ont participé à la transcription de la même conversation. « Nous avons atteint la parité humaine », a dit Xuedong Huang, un chercheur de Microsoft.

Cet exploit veut dire que pour la première fois, un ordinateur est capable de reconnaitre les mots d’une conversation aussi parfaitement qu’une personne. C’est le résultat de longues recherches qui ont commencé depuis les années soixante-dix et entreprises par la DARPA (Agence pour les projets de recherche avancée de défense). Durant des dizaines d’années, plusieurs firmes de technologie et organisations de recherche ont rejoint cette quête. « Cette réussite est l’aboutissement de plus de 20 ans d’effort », a dit Geoffrey Zweig du Speech & Dialog research group.

La mise au point de ce nouveau système aura de profondes implications sur les produits pour entreprises et pour le grand public, qui s’appuient sur la reconnaissance vocale. Cela inclut entre autres les systèmes de divertissement comme la Xbox, les outils d’accessibilité comme la transcription instantanée et les assistants personnels comme Cortana.

Il faut noter que parité ne veut pas dire forcément que le système de Microsoft est parfait, en effet il ne reconnait pas tous les mots parfaitement. En vérité, même des transcripteurs humains sont incapables de le faire. Le système n’a fait que transcrire à un taux d’erreurs comparable à une personne écoutant la même conversation. M. Zweig a attribué ce résultat à l’usage systématique de l’intelligence artificielle et d'un réseau de neurones.

Ces réseaux de neurones profonds utilisent de grands volumes de données (des corpus d'apprentissage) destinés à apprendre aux ordinateurs comment reconnaitre les modèles à partir des images et des sons. Pour réduire le taux d’erreurs, l’équipe de chercheurs s’est appuyée sur le Computational Network Toolkit, une bibliothèque pour l'apprentissage des réseaux de neurones profonds que l'équipe de Microsoft a rendu disponible en open source sur GitHub.

Microsoft a eu recours à 2 000 heures de données d’entrainement pour apprendre cette tâche à son réseau de neurones profonds. La firme a précisé que la parallélisation des données avec son toolkit s’appuie sur l'utilisation des processeurs graphiques pour réduire le temps d’apprentissage de plusieurs mois à moins de trois semaines.

Malgré les avancées considérables dans le domaine de reconnaissance visuelle et vocale durant les dernières années, les chercheurs estiment qu’on est toujours loin d’avoir des systèmes parfaits. M. Zweig a précisé que les chercheurs travaillaient sur des façons pour permettre à la reconnaissance vocale de fonctionner dans des conditions similaires à celles de la vie réelle. Cela inclut les environnements avec bruit de fond fort comme lors d’une fête. Ils cherchent aussi à aider la technologie à assigner des noms à des individus lorsque plusieurs personnes sont en train de parler. Enfin, il faudrait que cette technologie soit capable de comprendre une variété de voix, quel que soit l’âge, l’accent ou la capacité de l’individu qui est en train de parler. À long terme, il ne sera plus question de transcrire seulement, mais de comprendre le sens des mots et des phrases, de cette façon, la technologie pourra répondre à des questions et décider d'actions s’il le faut.

Source : blog Microsoft

Et vous ?

Qu'en pensez-vous ?

Voir aussi :

La première chanson composée par une intelligence artificielle vient de voir le jour, en attendant la sortie d'un album complet en 2017

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 19/10/2016 à 20:19
Citation Envoyé par Coriolan Voir le message
Ces réseaux d'apprentissage machine utilisent de larges volumes de données appelés data sets
Lol. Non désolé, data sets est juste le terme anglais pour ensembles de donnés.

Citation Envoyé par Coriolan Voir le message
Malgré les avancées considérables dans le domaine de reconnaissance visuelle et vocale durant les dernières années, les chercheurs estiment qu’on est toujours loin d’avoir des systèmes parfaits.
C'est peu dire. Avec toutes ces "avancées considérables", on se contente au final de rendre l'algorithme plus rapide pour lui faire bouffer toujours plus de données. Les avancées sont avant tout techniques, pas fonctionnelles. On applique les réseaux de neurones à toutes les sauces et on s'extasie à chaque fois de l'avoir appliqué quelque part... avant de dire qu'on va avoir une machine intelligente sur le long terme. À force, ça barbe, toute cette répétition. C'est pas parce qu'on met de la crème chantilly de partout que la pièce montée va soudainement apparaître.

Citation Envoyé par Coriolan Voir le message
Zweig a précisé que les chercheurs travaillent sur des façons pour permettre à la reconnaissance vocale de fonctionner dans des conditions similaires à celles de la vie réelle. Cela inclut les environnements avec bruit de fond fort comme lors d’une fête. Ils cherchent aussi à aider la technologie à assigner des noms à des individus lorsque plusieurs personnes sont en train de parler. Enfin, il faudrait que cette technologie soit capable de comprendre une variété de voix, quel que soit l’âge, l’accent ou la capacité de l’individu qui est en train de parler.
Je me disais bien que les "super résultats" étaient bien plus limités qu'on voulait le faire croire.

Citation Envoyé par Coriolan Voir le message
À long terme, il ne sera plus question de transcrire seulement, mais de comprendre le sens des mots et des phrases, de cette façon, la technologie pourra répondre à des questions et prendre des actions s’il le faut.
Oui, merci captain obvious. Ça fait 50 ans qu'on nous la sort celle-là. Le long terme ad infinitum, on saura s'en passer. La "compréhension" ne va pas tomber du ciel. Et un système artificiel n'a pas besoin de "comprendre" pour répondre aux questions. Juste de traduire la question en requête sur une base de données, et de traduire le résultat en réponse. Et ça, on le fait déjà.
4  1