La reconnaissance vocale aussi précise qu'un humain est désormais possible
Le système disponible sur nos smartphones dans un ou deux ans
Le 2014-12-31 08:54:03, par Michael Guilloux, Chroniqueur Actualités
Des chercheurs ont annoncé que de récentes percées dans la reconnaissance vocale et l'intelligence artificielle feront bientôt des gadgets spectaculairement meilleurs pour comprendre les humains. Cette nouvelle race de machines hautement compétentes, qui sont en mesure non seulement de nous entendre, mais aussi de comprendre le contexte et les nuances, sera là dans juste un an ou deux, d’après Johan Schalkwyk, un ingénieur de Google.
Schalkwyk travaille sur un projet de recherche ambitieux à Google pour créer des systèmes de parole. Un projet actuellement à l'essai dans le laboratoire permet aux ordinateurs d'entendre et essentiellement «penser» à ce que les gens disent dans l'oreille numérique de Google.
Il y a deux ans et demi, des chercheurs de Google et de l'Université de Toronto ont publié un article influent sur l'utilisation de «réseaux neuraux profonds» pour modéliser la parole dans les ordinateurs, et plusieurs mois plus tard, un autre article résultant d'une collaboration entre Microsoft et IBM. Cela a conduit à ce que l'ingénieur de Google Jeff Dean a décrit comme la «plus grande amélioration unique en 20 ans de recherche sur la parole.»
Les résultats ont ressuscité une invention sur les réseaux de neurones numériques vieille de plusieurs décennies. La technologie testée dans les années 1980 a vu sa performance entravée par la vitesse des ordinateurs à l'époque. Les réseaux de neurones ne sont devenus une option viable que récemment, suite à une accélération massive de traitement informatique.
Il y a six mois, l'équipe de projet de Google est passée à une nouvelle méthode sur les réseaux de neurones. Celle-ci permet au système de stocker plus d'informations, et de mieux traiter les séquences complexes. Les résultats révolutionnaires de Google permettront à son logiciel d'avoir plus d'idées et concepts dans le même système, ce qui permet de poser des questions complexes et obtenir des réponses sensées.
Comme le système actuel de Google, la nouvelle technologie de réseau utilise le contexte, l'emplacement physique et certaines autres informations sur le haut-parleur pour faire des hypothèses sur la direction d'une conversation et ce que tout cela signifie, exactement comme les humains. Mais le nouveau système devrait le faire aussi efficacement qu'il peut traiter de grandes quantités de données comme jamais auparavant, ce qui lui permet de répondre à des demandes plus complexes.
Ces récentes inventions dans le domaine de la parole et de l'apprentissage de la machine devraient conduire à des changements majeurs dans la façon dont nous murmurons, crions, questionnons et interrogeons nos appareils.
Il y a un an, des études ont montré que cela n'était pas possible, « mais tout cela a changé, principalement en raison de ces améliorations, » a déclaré Tim Tuttle, PhD de MIT et spécialiste de l'IA. « Vous allez voir des systèmes de reconnaissance vocale qui ont une précision humaine ou meilleure que celle de l'homme commencer à être commercialisés.»
Il y a trois ans, la reconnaissance vocale de Google pourrait reconnaître trois des quatre mots qui sortent de votre bouche. Grâce à un rythme accéléré de l'innovation, les applications Google sur votre téléphone en ce moment peuvent deviner correctement 12 mots sur tous les 13. Très vite, selon Tuttle, « nous allons vivre dans un monde où les appareils n'ont pas claviers. » Toutes les instructions leur seront données par une communication vocale.
Source : Bloomberg
Et vous ?
« Nous allons vivre dans un monde où les appareils n’ont pas de claviers », qu’en pensez-vous ? La reconnaissance vocale aussi précise soit-elle peut-elle remplacer les claviers ?
Schalkwyk travaille sur un projet de recherche ambitieux à Google pour créer des systèmes de parole. Un projet actuellement à l'essai dans le laboratoire permet aux ordinateurs d'entendre et essentiellement «penser» à ce que les gens disent dans l'oreille numérique de Google.
Il y a deux ans et demi, des chercheurs de Google et de l'Université de Toronto ont publié un article influent sur l'utilisation de «réseaux neuraux profonds» pour modéliser la parole dans les ordinateurs, et plusieurs mois plus tard, un autre article résultant d'une collaboration entre Microsoft et IBM. Cela a conduit à ce que l'ingénieur de Google Jeff Dean a décrit comme la «plus grande amélioration unique en 20 ans de recherche sur la parole.»
Les résultats ont ressuscité une invention sur les réseaux de neurones numériques vieille de plusieurs décennies. La technologie testée dans les années 1980 a vu sa performance entravée par la vitesse des ordinateurs à l'époque. Les réseaux de neurones ne sont devenus une option viable que récemment, suite à une accélération massive de traitement informatique.
Il y a six mois, l'équipe de projet de Google est passée à une nouvelle méthode sur les réseaux de neurones. Celle-ci permet au système de stocker plus d'informations, et de mieux traiter les séquences complexes. Les résultats révolutionnaires de Google permettront à son logiciel d'avoir plus d'idées et concepts dans le même système, ce qui permet de poser des questions complexes et obtenir des réponses sensées.
Comme le système actuel de Google, la nouvelle technologie de réseau utilise le contexte, l'emplacement physique et certaines autres informations sur le haut-parleur pour faire des hypothèses sur la direction d'une conversation et ce que tout cela signifie, exactement comme les humains. Mais le nouveau système devrait le faire aussi efficacement qu'il peut traiter de grandes quantités de données comme jamais auparavant, ce qui lui permet de répondre à des demandes plus complexes.
Ces récentes inventions dans le domaine de la parole et de l'apprentissage de la machine devraient conduire à des changements majeurs dans la façon dont nous murmurons, crions, questionnons et interrogeons nos appareils.
Il y a un an, des études ont montré que cela n'était pas possible, « mais tout cela a changé, principalement en raison de ces améliorations, » a déclaré Tim Tuttle, PhD de MIT et spécialiste de l'IA. « Vous allez voir des systèmes de reconnaissance vocale qui ont une précision humaine ou meilleure que celle de l'homme commencer à être commercialisés.»
Il y a trois ans, la reconnaissance vocale de Google pourrait reconnaître trois des quatre mots qui sortent de votre bouche. Grâce à un rythme accéléré de l'innovation, les applications Google sur votre téléphone en ce moment peuvent deviner correctement 12 mots sur tous les 13. Très vite, selon Tuttle, « nous allons vivre dans un monde où les appareils n'ont pas claviers. » Toutes les instructions leur seront données par une communication vocale.
Source : Bloomberg
Et vous ?
-
guigz2000Membre avertiEt puis tout doit passer par les serveurs de google...google pourra donc simplifier le boulot de la nsa a l'extrême,plus besoin d'operateurs qui peuvent fuiter...merci google.
Perso, Je prefere rester sur mon clavier.le 31/12/2014 à 10:35 -
deusyssExpert éminentBonne nouvelle pour certaines personnes (personnes agées, handicap moteur, ...). Mais je ne pense pas que cela signe la fin du clavier. En effet, il reste toujours pour commencer les mots se prononçant de la même façon (verre, vert, vers, ...) Comment les distinguer et corriger sans clavier? De même, quid de la confidentialité? On imagine mal prononcer son code ce carte bleu au distributeur à voix haute. Côté dev, en open space, je ne suis pas sur que ce soit très pratique non plus.
Bref, a moins de disposer d'une interface neuronale, je pense le clavier à encore quelque beau jour devant luile 31/12/2014 à 10:10 -
Traroth2Membre émériteAh oui, la NSA te protège, c'est çaaaaa. Et ils sont tellement gentils, en fait, que pour éviter que tu t'inquiètes, ils ne te disent rien. Tu as vraiment tout compris, toi...le 05/01/2015 à 11:56
-
Encore heureux, que cette nouvelle technologie s'adresse à une utilisation quotidienne et banale d'un individu lambda, plutôt qu'à des diplômes de bac L, des littéraires, des écrivains, des écoliers en classe de français, ...le 31/12/2014 à 12:17
-
On dirait que tu n'as pas compris un truc, si la NSA oeuvre dans le plus grand des secrets, c'est justement pour ne pas nous (internaute) avertir des mesures prises par la NSA, sinon on prendrait des contre-mesures à chaque intervention de la NSA, imbécile
.
Et qui dit internaute dit: toi, moi, les gens sur dvp, mais aussi les merdeux qui font du DDOS, anonymous, l'EI, la corée du nord, ect.
D'ailleurs qu'est-ce qui prouve à la NSA que tu est un saint sur le net ?
Sérieux renseigne toi avant de me critiquer.le 05/01/2015 à 18:57 -
ToTo13ModérateurLes meilleurs systèmes atteignent des performances autour de 30%, pour une simple reconnaissance de la parole, donc sans l'étape compréhension. Et ils utilisent des DNN.
Je sais que Google travaille sur un nouveau DNN, très atypique et prometteur, mais de là à atteindre un 100%, ça fait une grosse différence.le 08/01/2015 à 2:57 -
@Kapeutinile 12/01/2015 à 18:47
-
AliusEquinoxMembre régulierNe pas se laisser abuser par cet article,
il est une chose de pouvoir reconnaître les mots sans faire de fautes, il en est une autre de faire comprendre à la machine ce qu'ils signifie !
"Le livre que mon frère m'a offert est lourd, il pèse plus d'une livre."
Rien que dans cette phrase il y a déjà plusieurs problèmes que l'ordinateur ne sais pas encore résoudre : l'homonyme mais surtout l'anaphore.le 31/12/2014 à 11:14 -
Kihmé XsMembre confirméTout à fait d'accord, ce délire systématique avec les données et la NSA, ça devient n'importe quoi.
Alors ça par contre, ça pique vraiment les yeux de lire ce genre de chose... Le manichéisme dans toute sa splendeur, avec moi ou contre moi, 0 ou 1... On ne le répétera jamais assez, l'intelligence est dans la nuance, ici il y a une absence totale de nuance.
Il est clair que les monopoles ne sont pas ce vers quoi il faut tendre, mais en cette période où les géants du net que l'on accuse de tous les maux se font attaquer de partout, moi j'ai envie de les applaudir, juste l'espace d'un instant. C'est bien la première fois depuis très, très, très longtemps, que nous avons des monopoles qui se sont construits au mérite. Ils devraient être une source d'inspiration.le 31/12/2014 à 13:20 -
Kihmé XsMembre confirméBonjour Typoli,
Visiblement je n'oublie rien. Par contre, je constate que lorsque tu ne comprends pas ce que l'on reproche à tes propos tu fais une longue réponse hors sujetle 02/01/2015 à 14:58