Reconnaissance d'image : Google et Stanford publient leurs résultats

Le Deep Learning aurait amélioré la précision du système

Le 20 novembre 2014 à 14:06, par Amine Horseman

90PARTAGES

Reconnaissance d’image : Google et Stanford publient leurs résultats
Le Deep Learning aurait amélioré la précision du système

L’intelligence artificielle a connu une grande avancée durant les 40 dernières années, elle a des applications un peu partout aujourd’hui. Le « Deep Learning » constitue une de ces techniques d’apprentissage les plus à la mode aujourd’hui.

Une équipe de recherche à Google ainsi qu’une autre à Stanford l’ont utilisé récemment dans une problématique assez intéressante : la description de scènes. Le but est de créer des programmes qui prennent en entrée une image et génèrent en sortie un texte qui décrit cette image. Ceci pourra être très utile pour améliorer les résultats de recherche de Google Images par exemple, mais aussi dans la lutte contre le crime, pas seulement en identifiant les individus par une reconnaissance faciale, mais également en reconnaissant ce qu’ils sont en train de faire, et envoyer un message à la police, et ceci, de manière automatique, grâce aux images des caméras de surveillance.

La problématique de reconnaissance de scènes n’est pas nouvelle, plusieurs chercheurs travaillent sur le sujet pour créer des robots capables de reconnaître les activités des humains dans le but d’aider les personnes âgées et les malades. Un autre exemple encore qu’on peut citer est le cas des voitures autonomes ou semi-autonomes, qui peuvent identifier les piétons et les cyclistes traversant la route pour alerter le conducteur (s’il y en a) ou freiner en cas d’urgence.

Mais la caractéristique principale de l’étude de Google et de Stanford, c’est qu’elles combinent le domaine de la reconnaissance des images avec celui de la génération de texte, tout en utilisant le Deep Leaning. Un réseau de neurones convolutif profond est utilisé pour la classification d’objets dans la scène, la sortie est directement utilisée comme entrée pour un autre réseau de neurones modélisé de telle sorte à produire des phrases. « On peut ensuite entraîner l’ensemble du système directement avec des images annotées, de façon à maximiser les correspondances » disent les chercheurs. Résultat : le système peut décrire la scène en quelques fractions de seconde avec une précision qui dépasse celle des autres recherches publiées auparavant. Les scientifiques sont optimistes et disent vouloir entraîner le système avec plus d’images, ce qui devrait, selon eux, améliorer encore plus les résultats.

Pour les intéressés, l’équipe de Standford va bientôt publier le code source ainsi que les données utilisées durant l’étude.

Source : Stanford, Google Research Blog

Et vous ?

Qu’en pensez-vous ?

Vous avez lu gratuitement 3 836 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :