IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

GIPHY publie en open source le code et le modèle d'apprentissage profond utilisés
Pour la détection de célébrité

Le , par Bill Fassinou

454PARTAGES

12  0 
GIPHY a décidé cette semaine d’ouvrir le code source de son modèle de deep learning qu’il utilise pour distinguer des milliers de visages de célébrités à travers le monde. Le modèle dont il s’agit, précise l’entreprise, a été formé pour identifier les stars les plus populaires sur GIPHY. Il peut aussi identifier et faire des prédictions pour plusieurs visages sur une séquence d'images, comme des GIF et des vidéos. Sur sa page GitHub, GIPHY indique que son modèle peut détecter jusqu’à 2300 visages de célébrités avec une précision de l’ordre de 98 %. Si vous n’êtes pas habitués à ce nom, il faut savoir que GIPHY est un site Web contenant une base de données et un moteur de recherche et permettant la recherche et le partage de fichiers GIF animés.

Il a été lancé en 2013 par Jace Cook et Alex Chung pour donner un nouveau visage à la communication visuelle. Sa croissance a été rapide puisqu’en août 2013 déjà, les utilisateurs avaient la possibilité de partager des GIFs sur Facebook et un peu plus tard sur Twitter grâce notamment à une simple URL. De plus, en 2015, GIPHY a intégré l’une des applications les plus populaires de la marque Facebook, Facebook Messenger, et a lancé la même année une application dénommée GIPHY Cam qui permet aux utilisateurs de créer et de partager un GIF sur un réseau social. C’est toujours dans l’optique de faciliter la communication visuelle et permettre à d’autres développeurs de tirer parti de leur travail, et si possible de créer d’autres expériences utilisateurs sur la base de cela qu’il a publié son programme de distinction de visage de célébrité.


GIPHY renseigne que ce projet a été développé par l’équipe R&D de GIPHY dans le but de créer un modèle d’apprentissage approfondi capable d’annoter leur contenu le plus populaire à un niveau égal (et idéalement supérieur) aux modèles et services payants similaires proposés par les grandes entreprises de technologie. « Nous sommes extrêmement fiers de nos résultats et avons publié notre modèle et notre code de support dans l'espoir que d'autres s'appuieront sur notre travail, l'intégreront dans leurs propres projets et pourront peut-être même tirer des enseignements de notre approche », a déclaré Nick Hasty, le directeur de l’équipe R&D de GIPHY. La détection de célébrité par l’IA de GIPHY est un processus qui se déroule en deux étapes : la détection d’un visage et la reconnaissance de ce dernier par la suite.

Lorsqu'un fichier GIF ou une image est soumis au classificateur, le classificateur tente de détecter tous les visages dans toutes les images à l'aide d'un modèle préentraîné populaire appelé MTCNN, explique GIPHY. Chaque face est ensuite envoyée à travers un réseau de neurones à convolution profonde basée sur ResNet-50 et entraînée sur le jeu de données mentionné ci-dessus, aux fins de reconnaissance. Le réseau lui-même est un extracteur de caractéristiques faciales qui construit un espace vectoriel de faces regroupées. Chaque visage traité par le réseau se voit attribuer une prédiction de célébrité avec un vecteur de caractéristiques unique. Notons pour rappel que ResNet est un nom abrégé pour désigner Residual Network. Comme le nom du réseau l'indique, la nouvelle terminologie introduite par ce réseau est l'apprentissage résiduel. ResNet-50 est un réseau résiduel de 50 couches. Il existe d'autres variantes telles que ResNet-101 et ResNet-152 également.

Ensuite, continue d’expliquer Nick Hasty, une fois que tous les visages ont reçu un ensemble de prédictions et de vecteurs, un algorithme de post-traitement GMM est utilisé de manière supervisée pour regrouper chaque visage en fonction de sa représentation vectorielle. Pour chaque groupe, une prédiction agrégée est calculée pour toutes les faces du groupe, générant un ou plusieurs noms de célébrités, chacune avec un score de confiance. Le résultat final du modèle est la combinaison de ces prévisions pour tous les groupes. Vous pouvez accéder à la page GitHub pour en savoir plus sur le procédé ou l'environnement de travail à mettre en place si vous vouliez tester l’IA de GIPHY.

D’autres informations sont également mises à la disposition de la communauté sur le blog d’ingénierie de GIPHY et ce dernier vous invite à les consulter pour apprendre plus sur leur approche. « Au cours des prochains mois, nous fournirons plus de détails sur ce projet sur le blog de GIPHY Engineering, y compris une analyse technique approfondie et un aperçu de la façon dont nous avons testé le modèle pour différents types de biais. En attendant, nous vous encourageons à télécharger et jouer avec le modèle et à nous informer si vous proposez des cas d'utilisation intéressants ou si vous étendez les capacités du modèle pour vos propres besoins », a écrit Hasty pour finir son argumentaire.

Source : GitHub

Et vous ?

Que pensez-vous de la publication en open source de GIPHY ?
Que vise GIPHY à travers cette publication selon vous ?
Avez-vous déjà essayé GIPHY ? Qu'en pensez-vous ?

Voir aussi

IBM propose une bibliothèque d'apprentissage profond 46 x plus rapide que Google TensorFlow SNAP disponible en fin d'année

Intel prévoit un processeur spécifiquement conçu pour l'apprentissage profond dix-huit fois plus rapide que les GPU actuels

Pourquoi l’apprentissage profond et les réseaux neuronaux sont-ils si prometteurs ?

Microsoft libère sa solution d'apprentissage profond pour la reconnaissance vocale, CNTK dépasse en rapidité les logiciels existants

Une erreur dans cette actualité ? Signalez-nous-la !