Developpez.com

Plus de 2 000 forums
et jusqu'à 5 000 nouveaux messages par jour

Pix2code peut générer un code à partir de la capture d'écran d'une interface graphique
Pour les plateformes iOS, Android et Web

Le , par Christian Olivier, Rédacteur
Les langages informatiques utilisés pour implémenter les différentes interfaces graphiques (GUI) sont spécifiques à chaque plateforme. De ce fait, lorsqu’il faut porter un logiciel sur une plateforme différente, le développeur est parfois obligé de répéter inlassablement le « même travail » en adéquation avec les contraintes imposées par chaque langage. Un certain nombre d'outils tentent cependant de résoudre ce problème, et c'est le cas de Pix2code.

Une entreprise danoise a récemment annoncé avoir réussi à développer un réseau neuronal capable de se servir de la capture d’écran d’un site Web pour générer le code nécessaire à sa reproduction. Cette start-up basée à Copenhague porte le nom d’UIzard. Elle travaille sur un projet dont l’objectif est de diminuer le temps nécessaire à la création d’un logiciel.

Pix2code est la solution développée par cette entreprise, et elle est capable de générer un code à partir de la capture d'écran d'une interface graphique. À partir d’une seule image source, Pix2code peut générer des codes ciblant trois plateformes différentes (iOS, Android et le Web) avec plus de 77 % de précision. Cette solution est une nouvelle approche basée sur les réseaux neuronaux conventionnels et récurrents. Le processus qui lui permet de réaliser cette prouesse peut être comparé au processus qui permet de produire des descriptions textuelles à partir d’une image figée comme une photographie. Ce processus doit surmonter trois contraintes ou sous-problèmes.

D’abord, il y a le problème de la vision de l’ordinateur par rapport à la compréhension qu’il a de la scène présentée sur l’image (dans ce cas une capture d’écran) parce qu’il faut déduire les éléments présents, leur identité, leur position et leur signification. Ensuite, il y a le problème de la modélisation du langage par rapport à la compréhension du texte (dans ce cas, c’est le code informatique) parce qu’il faut générer des échantillons syntaxiques et sémantiquement corrects.

Enfin, le dernier défi à relever est d’utiliser les solutions aux deux sous-problèmes précédents en exploitant les variables latentes déduites de la compréhension de la scène pour générer les descriptions textuelles correspondantes (c’est-à-dire un code informatique plutôt que du texte anglais) des objets représentés par ces variables.


Source : UIzard, Documentation PDF

Et vous ?

Qu'en pensez-vous ?

Voir Aussi

Google Brain travaille sur des réseaux neuronaux capables d'implémenter leurs propres formes de chiffrement, la stéganographie est la prochaine étape

DeepMind rend Sonnet open source, sa bibliothèque de réseau neuronal orientée objet facilite la création de réseaux neuronaux complexes


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse

Avatar de Omote Omote - Membre actif https://www.developpez.com
le 30/05/2017 à 11:11
Les langages informatiques utilisés pour implémenter les différentes interfaces graphiques (GUI) sont spécifiques à chaque plateforme.
Heu, je ne suis pas expert en développement sur mobile mais il existe bien des solutions qui sont compatibles sur plusieurs plateformes (en tête j'ai Xamarin)? J'aurai plus tendance à utiliser une solution compatible multi-plateforme que d'avoir la même interface auto-généré mais avec du code différent en dessous (ne serais que pour la correction de bug).

Par contre d'un point de vue purement scientifique, je trouve cela très encourageant en terme de compréhension par la machine d'une image et sa "mise en pensé" via le code. Cela pourrait être intéressant dans des domaines comme la gestion de la circulation.
Avatar de Bigb Bigb - Membre actif https://www.developpez.com
le 30/05/2017 à 12:06
Sur le papier ca a l'air révolutionnaire, quand on voit la démo c'est moins impressionnant et quand on réfléchit quelques minutes on se rend compte que c'est impossible à partir d'une capture, par exemple est ce que ce texte est un lien ? cliquable ?
La vidéo est très sommaire par rapport à l'innovation vantée dans l'article
Offres d'emploi IT
Ingénieur produit (FADEC militaire) H/F
Safran - Ile de France - 100 rue de Paris 91300 MASSY
Ingénieur produit (Landing gear) H/F
Safran - Ile de France - MASSY Hussenot
Ingénieur système de commande de vol H/F
Safran - Ile de France - Massy (91300)

Voir plus d'offres Voir la carte des offres IT
Contacter le responsable de la rubrique Accueil