Pour effectuer une traduction, « il vous suffit d'ouvrir l'application, cliquer sur la caméra, et la diriger vers le texte que vous avez besoin de traduire – un panneau de signalisation routier, une liste d’ingrédients, un manuel d'instruction, des boutons de réglages sur une machine à laver. Vous verrez le texte être transformé en direct sur votre écran dans l'autre langue. Aucune donnée cellulaire ni connexion internet n’est nécessaire ». La vidéo de démonstration ci-dessous marque l’évolution de la vitesse d’exécution et de la précision de l’application depuis l’acquisition de la technologie Word Lens suite au rachat de Quest Visual en mai 2014.
Si vous vous demandez comment l’application fait pour reconnaître et utiliser autant de langages sans avoir besoin d’une connexion internet, Mountain View explique que cette prouesse est due à de profonds réseaux neuronaux.
Tout d’abord, lorsqu’une image issue de l’objectif parvient à l’application, Google Translate commence à y rechercher des caractères. L’application a besoin d’éliminer les objets de fond comme les arbres ou les voitures et ne choisir que les mots à traduire.
Ensuite, Translate doit reconnaître chaque lettre, et c’est ici que le deep learning intervient. « Nous utilisons un réseau de neurones à convolution, le formant sur les lettres et les non-lettres de sorte qu'il puisse apprendre à quoi ressemblent les différentes lettres ressemblent », avance Google.
« Mais, fait intéressant, si nous ne le formons que sur des lettres d’apparence très "correcte", nous risquons de ne pas comprendre ce à quoi les lettres ressemblent dans la réalité. Les lettres dans le monde réel sont entachées par des réflexions, la saleté, des taches et toutes sortes de bizarreries. Donc, nous avons conçu notre générateur de lettres afin qu’il puisse créer toutes sortes de fausse " saleté " pour imiter de façon convaincante le caractère bruyant des réflexions du monde réel –fausses réflexions, fausses taches, fausses bizarreries tout autour. Pourquoi ne pas simplement l’avoir formé sur les photos de la vie réelle qui comporte des lettres ? Eh bien, il aurait été difficile de trouver assez d'exemples dans toutes les langues dont nous avons besoin, et il est plus difficile encore de maintenir le bon contrôle sur le type d’exemples que nous utilisons lorsque nous visons à former un réseau de neurones compact et très efficace. Donc, il est plus efficace de simuler la saleté ».
La troisième étape est de prendre ces lettres que l’application a reconnues et de les porter au dictionnaire pour traduction. « Étant donné que les étapes précédentes auraient pu échouer de quelque façon que ce soit, la recherche dans le dictionnaire doit être approximative. De cette façon si nous lisons un 'S' comme un '5', nous serons toujours en mesure de trouver le mot ‘5uper’.
Et enfin la dernière étape c’est le rendu de la traduction sur l’emplacement du mot d’origine. « Nous pouvons le faire parce que nous avons déjà trouvé et lu les lettres dans l'image, donc nous savons exactement où elles sont. Nous pouvons regarder les couleurs entourant les lettres et les utiliser pour effacer les lettres originales. Par la suite, nous pouvons dessiner la traduction au-dessus en utilisant la couleur du premier plan d'origine ».
Source : BlogSpot