Developpez.com

Le Club des Développeurs et IT Pro

Google livre quelques secrets sur la recherche vocale

La précision du système extrêmement liée à la quantité de données

Le 2012-11-01 15:45:19, par Hinault Romaric, Responsable .NET
Google Research, la division de recherche de Google a publié un document qui décrit un peu comment sa technologie de recherche vocale fonctionne.

Les mécanismes qui sont développés au sein de ses applications de reconnaissance vocale reposent essentiellement sur les données.

En effet, les chercheurs ont constaté que la présence des quantités de données énormes entraine moins d’erreurs lors de la prédiction du mot suivant en fonction des mots qui le précèdent.

Selon l’article publié par Google, son implémentation de la recherche vocale utilise principalement des données provenant des requêtes anonymes sur Google.com pour créer un modèle de langue important, qui permet d’assigner la probabilité du mot suivant dans une phrase en fonction des mots précédents.

Le chercheur Ciprian Chelba de Google, explique que si par exemple, les mots précédents sont « New York », le modèle de langue attribuera une plus grande probabilité à « pizza » par rapport à « granola ».

Dans leurs analyses, les chercheurs de Google ont utilisé plus de 230 milliards de mots d’un échantillon aléatoire de requêtes anonymes du moteur Google qui ne déclenchent pas une correction orthographique.

Ceux-ci ont constaté qu’avec un tel ensemble de données, le taux d’erreur pouvait être réduit de 6 à 10 %, et pour les systèmes disposant d’un échantillon encore plus large, la réduction du taux d’erreur pouvait être de 17 à 52%.

Google dévoile ce document pratiquement au même moment que sort une mise à jour de son application de recherche pour iOS, dont la nouveauté la plus mise en avant est l’amélioration de la recherche vocale.

Source : Blog Google Research
  Discussion forum
12 commentaires
  • alex_vino
    Membre émérite
    Envoyé par shadypierre
    Je pense qu'il veut parler du faite que google prédit les requêtes d'un utilisateur en fonction de ses demandes passés, ce qui implique que les réponses à une demande sont de plus en plus orienté vers une direction qui dépend des précédentes requêtes et enferme donc l'utilisateur dans une sorte de bulle.

    Enfin si ce n'était pas l'idée, c'est en tout cas la mienne

    Mais l'article ne spécifie pas (du moins je ne vois pas) que c'est par rapport a l'historique des mots-clé de l'utilisateur, donc j'imagine que c'est par rapport aux recherches globales de tout le monde mélangé, sans aucune référence a la personne.
    Par exemple lorsque je développe et que j'écris les 2-3 premiers mots de mon erreur que je rencontre pour la premiere fois alors Google me pré-remplie le message complet.
    Sinon l'intéret est limité si ca ne vérifie que l'historique de l'utilisateur car en général on recherche rarement la meme chose ou sinon on garde le résultat désiré en favoris.

    Donc si j'ai bien compris et que mon raisonement est bon alors je ne penses pas que cela crée une dépendance de l'utilisateur.
  • Torgar
    Rédacteur
    Petite précision, je cite : son implémentation de la recherche vocale utilise principalement des données provenant des requêtes anonymes sur Google.com pour créer un modèle de langue important

    En aucun cas il n'est fait mention que ce sont les recherches de l'utilisateur courant qui servent à la prédiction. Sinon comment pourrions nous avoir des prédictions (ça fait un peu Minority Report ) sur des termes que nous n'avons jamais utilisé ?
  • LLB
    Membre expérimenté
    En gros, la reconnaissance vocale est difficile et ça marche mal. Selon la qualité de l'enregistrement, la prononciation, la vitesse de parole, l'accent, etc. il y a beaucoup de différences. Un système n'utilisant que l'information du fichier son est voué à l'échec. Il y a beaucoup d'ambiguïtés dans la langue (dans ma phrase précédente : "les chèques" ou "l'échec" ?). Même dans la vie courante, on n'entend pas forcément chacune des syllabes de la phrase, mais on les devine avec le contexte.

    Pour faire la transcription, il faut avoir connaissance de la langue en question. L'article indique :

    Two such data sources are the anonymized queries on google.com and the web itself. They help improve automatic speech recognition through large language models: Voice Search makes use of the former, whereas YouTube speech transcription benefits significantly from the latter.
    En gros, dans une vidéo youtube, des phrases complètes sont prononcées. Cela ressemble donc (statistiquement) aux phrases que l'on trouve dans les articles, sur Internet. Ici, on parle de la recherche vocale. Quand on fait une recherche, on fait rarement une phrase complète. La recherche vocale s'appuie donc sur les requêtes qui sont faites dans les recherches classiques. Ça marche pas trop mal, puisque beaucoup de gens font les mêmes requêtes (j'imagine que le taux d'échec est important pour les requêtes complexes ou inhabituelles). Quand tu dictes deux mots-clés, il y a souvent un lien entre les deux mots : le mot recette est souvent accompagné d'un nom de plat ou de gâteau, par exemple.
  • alex_vino
    Membre émérite
    La quantité de données et la puissance de traitement qu'il faut derriere, le tout pour des résultats quasi-instantanés...
    Ce doit etre intéressant de voir tout ca de l'intérieur.
  • alex_vino
    Membre émérite
    Envoyé par Freem
    Utiliser la "prédiction" statistique de ce que la requête de l'utilisateur pourrait être implique que google va enfermer encore plus ses utilisateur dans leur bulle...
    Mais bon, les gens s'en moquent, je suppose.
    Peux-tu développer ton raisonnement davantage s'il te plait?
    Je ne penses pas que si Google sait prédire le mot suivant d'une requete implique que les utilisateurs restent attaché a Google. Mais tu as l'air de penser a autre chose.

    Perso je regarde plutot l'aspect technique de la chose, de toute maniere j'ai supprimé toute trace des services Google de mon quotidien, comme quoi on peux vivre sans.
  • shadypierre
    Membre actif
    Je pense qu'il veut parler du faite que google prédit les requêtes d'un utilisateur en fonction de ses demandes passés, ce qui implique que les réponses à une demande sont de plus en plus orienté vers une direction qui dépend des précédentes requêtes et enferme donc l'utilisateur dans une sorte de bulle.

    Enfin si ce n'était pas l'idée, c'est en tout cas la mienne
  • alex_vino
    Membre émérite
    Envoyé par Torgar
    Petite précision, je cite : son implémentation de la recherche vocale utilise principalement des données provenant des requêtes anonymes sur Google.com pour créer un modèle de langue important

    En aucun cas il n'est fait mention que ce sont les recherches de l'utilisateur courant qui servent à la prédiction. Sinon comment pourrions nous avoir des prédictions (ça fait un peu Minority Report ) sur des termes que nous n'avons jamais utilisé ?
    Merci je ne suis pas fou

    Par contre il est évident que Google conserve tout ce que fait l'utilisateur et le lie a celui-ci, mais dans ce service ce n'est pas vraiment utile justement.
  • Bonjour,

    Je ne comprends pas bien le rapport entre "recherche vocale" et prédiction du mot suivant. En tout cas qu'est-ce que ça a de spécifique à la recherche vocale ? Si quelqu'un pouvait m'éclairer, ce serait sympas. Mon incompréhension provient sûrement du fait que je n'ai jamais utilisé la recherche vocale Google.

    Merci.
  • Ok merci pour l'éclaircissement .
  • Freem
    Membre émérite
    Utiliser la "prédiction" statistique de ce que la requête de l'utilisateur pourrait être implique que google va enfermer encore plus ses utilisateur dans leur bulle...
    Mais bon, les gens s'en moquent, je suppose.