Comme beaucoup ces dernières années, vous avez vécu la démocratisation massive des assistants personnels. De la même manière, apercevoir un ami ou collègue de travail donner d’étranges ordres ou poser de drôles de questions à son téléphone n’a jamais été aussi normal qu'aujourd’hui. Vous l’aurez sûrement remarqué, nous sommes dans l’ère des technologies cognitives, et la reconnaissance vocale en fait partie.
La reconnaissance vocale (RV) est une fonctionnalité assez appréciée qui séduit plus d'un. En réalité, il s'agit d'une technique informatique qui permet d'analyser la voix humaine captée au moyen d'un microphone pour la transcrire sous la forme d'un texte exploitable par une machine. La majorité des smartphones vendus de nos jours en sont pourvus. Seulement, le temps de latence qu'il y a entre le moment où on parle et le moment où cela est transcrit, a toujours été un problème, mais le nouveau système de reconnaissance vocale de Google vient probablement de le régler.
En effet, mardi dernier, l'équipe d'intelligence artificielle de Google a annoncé qu'elle avait mis à jour le système de reconnaissance vocale de Gboard (le clavier de Google), qui reconnaissait les caractères un par un au fur et à mesure de leur prononciation, et qu'il est désormais hébergé directement sur l'appareil. Ce qui supprime définitivement le temps de latence et permet donc une utilisation en mode hors ligne. Ce modèle a été conçu à l'aide de la technologie de transducteur de réseaux neuronaux récurrents.
En réalité, ce délai d'attente était dû au fait que votre voix, ou certaines données qui en dérivent de toute façon devaient voyager de votre téléphone vers les serveurs de quiconque exploite le service, où elles sont analysées et renvoyées peu de temps après. Cela pouvait prendre de quelques millisecondes à plusieurs secondes et voir même plus. N'ayant plus à envoyer de données par Internet, la saisie vocale de Gboard devrait désormais être plus rapide et plus fiable.
La reconnaissance vocale fonctionne traditionnellement en séparant les mots que vous prononcez en parties plus petites, appelées phonèmes. Le système de reconnaissance de la parole analyse ensuite l'ordre, le motif et le contexte des phonèmes afin de générer une phrase. L'équipe d'IA de Google a déclaré dans son article que Gboard reconnaîtra les lettres individuelles des mots que vous dites lorsque vous les dites, plutôt que de reconnaître les phonèmes. L'idée est que la reconnaissance vocale soit disponible à tout moment, que ce soit hors ligne ou en ligne. Les mots sont vérifiés caractère par caractère afin d'être reconnus en temps réel.
À l'heure actuelle, la mise à jour Gboard est uniquement disponible en anglais américain et sur les téléphones Pixel. L'équipe d'intelligence artificielle de Google pourrait étendre la mise à jour pour inclure davantage de langues et plus de périphériques à l'avenir. D'une certaine manière, il s'agit simplement d'une sorte de test de résistance pour la vraie chose.
Source : Google
Et vous ?
Qu'en pensez-vous ?
Voir aussi :
Google Assistant sera-t-il bientôt en mesure d'agir en tant que traducteur en temps réel ? démonstration au CES 2019 du « mode interprète »
Facebook rend open source le système de reconnaissance vocale Wav2letter++ et publie Flashlight, une bibliothèque d'apprentissage machine
Un perroquet utilise l'assistant vocal Alexa pour passer des commandes d'articles sur Amazon En l'absence de son propriétaire
Le nouveau système de reconnaissance vocale de Google fonctionne instantanément et hors ligne
Mais uniquement sur un téléphone pixel
Le nouveau système de reconnaissance vocale de Google fonctionne instantanément et hors ligne
Mais uniquement sur un téléphone pixel
Le , par Jonathan
Une erreur dans cette actualité ? Signalez-nous-la !