Developpez.com

Plus de 2 000 forums
et jusqu'à 5 000 nouveaux messages par jour

Reconnaissance d'image : Google et Stanford publient leurs résultats
Le Deep Learning aurait amélioré la précision du système

Le , par Amine Horseman, Expert éminent sénior
L’intelligence artificielle a connu une grande avancée durant les 40 dernières années, elle a des applications un peu partout aujourd’hui. Le « Deep Learning » constitue une de ces techniques d’apprentissage les plus à la mode aujourd’hui.

Une équipe de recherche à Google ainsi qu’une autre à Stanford l’ont utilisé récemment dans une problématique assez intéressante : la description de scènes. Le but est de créer des programmes qui prennent en entrée une image et génèrent en sortie un texte qui décrit cette image. Ceci pourra être très utile pour améliorer les résultats de recherche de Google Images par exemple, mais aussi dans la lutte contre le crime, pas seulement en identifiant les individus par une reconnaissance faciale, mais également en reconnaissant ce qu’ils sont en train de faire, et envoyer un message à la police, et ceci, de manière automatique, grâce aux images des caméras de surveillance.

La problématique de reconnaissance de scènes n’est pas nouvelle, plusieurs chercheurs travaillent sur le sujet pour créer des robots capables de reconnaître les activités des humains dans le but d’aider les personnes âgées et les malades. Un autre exemple encore qu’on peut citer est le cas des voitures autonomes ou semi-autonomes, qui peuvent identifier les piétons et les cyclistes traversant la route pour alerter le conducteur (s’il y en a) ou freiner en cas d’urgence.


Mais la caractéristique principale de l’étude de Google et de Stanford, c’est qu’elles combinent le domaine de la reconnaissance des images avec celui de la génération de texte, tout en utilisant le Deep Leaning. Un réseau de neurones convolutif profond est utilisé pour la classification d’objets dans la scène, la sortie est directement utilisée comme entrée pour un autre réseau de neurones modélisé de telle sorte à produire des phrases. « On peut ensuite entraîner l’ensemble du système directement avec des images annotées, de façon à maximiser les correspondances » disent les chercheurs. Résultat : le système peut décrire la scène en quelques fractions de seconde avec une précision qui dépasse celle des autres recherches publiées auparavant. Les scientifiques sont optimistes et disent vouloir entraîner le système avec plus d’images, ce qui devrait, selon eux, améliorer encore plus les résultats.

Pour les intéressés, l’équipe de Standford va bientôt publier le code source ainsi que les données utilisées durant l’étude.

Source : Stanford, Google Research Blog

Et vous ?

Qu’en pensez-vous ?


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse

Avatar de silverfly silverfly - Membre habitué https://www.developpez.com
le 21/11/2014 à 11:06
Qu’en pensez-vous ?

Déjà que je galère pour identifier les caractères dans les captcha...
Avatar de rawsrc rawsrc - Modérateur https://www.developpez.com
le 21/11/2014 à 11:10
Moi je dis que c'est du grand n'importe quoi !!

Avec tout ça, on ne sait toujours pas si elle est célibataire ou pas ??!!!???

Avatar de Aurelien Plazzotta Aurelien Plazzotta - Membre éprouvé https://www.developpez.com
le 21/11/2014 à 14:05
On est encore bien loin de la réalité augmentée, ça affiche pas ses pulsations-minute, son statut amoureux, son numéro de téléphone...
Comme dit dans un autre sujet, à chaque fois qu'une nouvelle "avancée" risque de dégrader notre vie privée, on nous sort le refrain de la sécurité...

Là, c'est la voiture qui s'arrête pour protéger les piétons, mais il est clair que le deep learning associé aux textes et aux images n'a pas pour but de préserver notre vie privée. Au contraire, l'usage de cette technologie repose sur la collecte de nos habitudes de consommation et sa monétisation.
Avatar de gangsoleil gangsoleil - Modérateur https://www.developpez.com
le 21/11/2014 à 16:50
Bonjour,
Citation Envoyé par Kenaryn  Voir le message
Comme dit dans un autre sujet, à chaque fois qu'une nouvelle "avancée" risque de dégrader notre vie privée, on nous sort le refrain de la sécurité...

Là, c'est la voiture qui s'arrête pour protéger les piétons, mais il est clair que le deep learning associé aux textes et aux images n'a pas pour but de préserver notre vie privée. Au contraire, l'usage de cette technologie repose sur la collecte de nos habitudes de consommation et sa monétisation.

Ah non, cette fois-ci, c'et clairement dit. Enfin clairement... Il faut lire entre les lignes, mais c'est bien dit (avec un exemple sur la sécurité, certes) :
Citation Envoyé par Amine Horseman  Voir le message
Ceci pourra être très utile pour améliorer les résultats de recherche de Google Images par exemple, mais aussi dans la lutte contre le crime, pas seulement en identifiant les individus par une reconnaissance faciale, mais également en reconnaissant ce qu’ils sont en train de faire, et envoyer un message à la police, et ceci, de manière automatique, grâce aux images des caméras de surveillance.

Après, Google a beau avoir comme slogan "don't be evil", nous savons tous ici que leur seul but est de faire de l'argent, et que toutes les avancées qu'ils font n'ont pour but que d'en gagner un peu plus.
Avatar de Gabrieel Gabrieel - Membre régulier https://www.developpez.com
le 24/11/2014 à 11:27
Citation Envoyé par Amine Horseman  Voir le message
Reconnaissance d’image : Google et Stanford publient leurs résultats
Qu’en pensez-vous ?

du bon pour les mals voyants, c'est une bonne chose
Avatar de zaza576 zaza576 - Membre actif https://www.developpez.com
le 21/01/2015 à 16:04
Une image résume 1000 mots ...

J'adore ! Fusionnez cet algo avec des vidéos et images et un réseau neuronal et vous inventez un sacré cerveau !
Offres d'emploi IT
Ingénieur web java play! H/F
EXTERNATIC - Pays de la Loire - Nantes (44000)
Ingenieur linux h/f
Adequat Tertiaire - Rhône Alpes - Lyon (69000)
Devops H/F
Dolmen Technologies - Bretagne - Rennes (35000)

Voir plus d'offres Voir la carte des offres IT
Contacter le responsable de la rubrique Accueil