Developpez.com

Le Club des Développeurs et IT Pro

Reconnaissance d'image : Google et Stanford publient leurs résultats

Le Deep Learning aurait amélioré la précision du système

Le 2014-11-20 14:06:20, par Amine Horseman, Expert éminent sénior
L’intelligence artificielle a connu une grande avancée durant les 40 dernières années, elle a des applications un peu partout aujourd’hui. Le « Deep Learning » constitue une de ces techniques d’apprentissage les plus à la mode aujourd’hui.

Une équipe de recherche à Google ainsi qu’une autre à Stanford l’ont utilisé récemment dans une problématique assez intéressante : la description de scènes. Le but est de créer des programmes qui prennent en entrée une image et génèrent en sortie un texte qui décrit cette image. Ceci pourra être très utile pour améliorer les résultats de recherche de Google Images par exemple, mais aussi dans la lutte contre le crime, pas seulement en identifiant les individus par une reconnaissance faciale, mais également en reconnaissant ce qu’ils sont en train de faire, et envoyer un message à la police, et ceci, de manière automatique, grâce aux images des caméras de surveillance.

La problématique de reconnaissance de scènes n’est pas nouvelle, plusieurs chercheurs travaillent sur le sujet pour créer des robots capables de reconnaître les activités des humains dans le but d’aider les personnes âgées et les malades. Un autre exemple encore qu’on peut citer est le cas des voitures autonomes ou semi-autonomes, qui peuvent identifier les piétons et les cyclistes traversant la route pour alerter le conducteur (s’il y en a) ou freiner en cas d’urgence.


Mais la caractéristique principale de l’étude de Google et de Stanford, c’est qu’elles combinent le domaine de la reconnaissance des images avec celui de la génération de texte, tout en utilisant le Deep Leaning. Un réseau de neurones convolutif profond est utilisé pour la classification d’objets dans la scène, la sortie est directement utilisée comme entrée pour un autre réseau de neurones modélisé de telle sorte à produire des phrases. « On peut ensuite entraîner l’ensemble du système directement avec des images annotées, de façon à maximiser les correspondances » disent les chercheurs. Résultat : le système peut décrire la scène en quelques fractions de seconde avec une précision qui dépasse celle des autres recherches publiées auparavant. Les scientifiques sont optimistes et disent vouloir entraîner le système avec plus d’images, ce qui devrait, selon eux, améliorer encore plus les résultats.

Pour les intéressés, l’équipe de Standford va bientôt publier le code source ainsi que les données utilisées durant l’étude.

Source : Stanford, Google Research Blog

Et vous ?

Qu’en pensez-vous ?
  Discussion forum
6 commentaires
  • silverfly
    Membre habitué
    Qu’en pensez-vous ?
    Déjà que je galère pour identifier les caractères dans les captcha...
  • rawsrc
    Expert éminent sénior
    Moi je dis que c'est du grand n'importe quoi !!

    Avec tout ça, on ne sait toujours pas si elle est célibataire ou pas ??!!!???

  • Aurelien Plazzotta
    Membre extrêmement actif
    On est encore bien loin de la réalité augmentée, ça affiche pas ses pulsations-minute, son statut amoureux, son numéro de téléphone...
    Comme dit dans un autre sujet, à chaque fois qu'une nouvelle "avancée" risque de dégrader notre vie privée, on nous sort le refrain de la sécurité...

    Là, c'est la voiture qui s'arrête pour protéger les piétons, mais il est clair que le deep learning associé aux textes et aux images n'a pas pour but de préserver notre vie privée. Au contraire, l'usage de cette technologie repose sur la collecte de nos habitudes de consommation et sa monétisation.
  • gangsoleil
    Modérateur
    Bonjour,
    Envoyé par Kenaryn

    Comme dit dans un autre sujet, à chaque fois qu'une nouvelle "avancée" risque de dégrader notre vie privée, on nous sort le refrain de la sécurité...

    Là, c'est la voiture qui s'arrête pour protéger les piétons, mais il est clair que le deep learning associé aux textes et aux images n'a pas pour but de préserver notre vie privée. Au contraire, l'usage de cette technologie repose sur la collecte de nos habitudes de consommation et sa monétisation.
    Ah non, cette fois-ci, c'et clairement dit. Enfin clairement... Il faut lire entre les lignes, mais c'est bien dit (avec un exemple sur la sécurité, certes) :
    Envoyé par Amine Horseman
    Ceci pourra être très utile pour améliorer les résultats de recherche de Google Images par exemple, mais aussi dans la lutte contre le crime, pas seulement en identifiant les individus par une reconnaissance faciale, mais également en reconnaissant ce qu’ils sont en train de faire, et envoyer un message à la police, et ceci, de manière automatique, grâce aux images des caméras de surveillance.
    Après, Google a beau avoir comme slogan "don't be evil", nous savons tous ici que leur seul but est de faire de l'argent, et que toutes les avancées qu'ils font n'ont pour but que d'en gagner un peu plus.
  • Gabrieel
    Membre habitué
    Envoyé par Amine Horseman
    Reconnaissance d’image : Google et Stanford publient leurs résultats
    Qu’en pensez-vous ?
    du bon pour les mals voyants, c'est une bonne chose
  • zaza576
    Membre actif
    Une image résume 1000 mots ...

    J'adore ! Fusionnez cet algo avec des vidéos et images et un réseau neuronal et vous inventez un sacré cerveau !