IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Pix2code peut générer un code à partir de la capture d'écran d'une interface graphique
Pour les plateformes iOS, Android et Web

Le , par Christian Olivier

65PARTAGES

9  0 
Les langages informatiques utilisés pour implémenter les différentes interfaces graphiques (GUI) sont spécifiques à chaque plateforme. De ce fait, lorsqu’il faut porter un logiciel sur une plateforme différente, le développeur est parfois obligé de répéter inlassablement le « même travail » en adéquation avec les contraintes imposées par chaque langage. Un certain nombre d'outils tentent cependant de résoudre ce problème, et c'est le cas de Pix2code.

Une entreprise danoise a récemment annoncé avoir réussi à développer un réseau neuronal capable de se servir de la capture d’écran d’un site Web pour générer le code nécessaire à sa reproduction. Cette start-up basée à Copenhague porte le nom d’UIzard. Elle travaille sur un projet dont l’objectif est de diminuer le temps nécessaire à la création d’un logiciel.

Pix2code est la solution développée par cette entreprise, et elle est capable de générer un code à partir de la capture d'écran d'une interface graphique. À partir d’une seule image source, Pix2code peut générer des codes ciblant trois plateformes différentes (iOS, Android et le Web) avec plus de 77 % de précision. Cette solution est une nouvelle approche basée sur les réseaux neuronaux conventionnels et récurrents. Le processus qui lui permet de réaliser cette prouesse peut être comparé au processus qui permet de produire des descriptions textuelles à partir d’une image figée comme une photographie. Ce processus doit surmonter trois contraintes ou sous-problèmes.

D’abord, il y a le problème de la vision de l’ordinateur par rapport à la compréhension qu’il a de la scène présentée sur l’image (dans ce cas une capture d’écran) parce qu’il faut déduire les éléments présents, leur identité, leur position et leur signification. Ensuite, il y a le problème de la modélisation du langage par rapport à la compréhension du texte (dans ce cas, c’est le code informatique) parce qu’il faut générer des échantillons syntaxiques et sémantiquement corrects.

Enfin, le dernier défi à relever est d’utiliser les solutions aux deux sous-problèmes précédents en exploitant les variables latentes déduites de la compréhension de la scène pour générer les descriptions textuelles correspondantes (c’est-à-dire un code informatique plutôt que du texte anglais) des objets représentés par ces variables.


Source : UIzard, Documentation PDF

Et vous ?

Qu'en pensez-vous ?

Voir Aussi

Google Brain travaille sur des réseaux neuronaux capables d'implémenter leurs propres formes de chiffrement, la stéganographie est la prochaine étape

DeepMind rend Sonnet open source, sa bibliothèque de réseau neuronal orientée objet facilite la création de réseaux neuronaux complexes

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Bigb
Membre averti https://www.developpez.com
Le 30/05/2017 à 12:06
Sur le papier ca a l'air révolutionnaire, quand on voit la démo c'est moins impressionnant et quand on réfléchit quelques minutes on se rend compte que c'est impossible à partir d'une capture, par exemple est ce que ce texte est un lien ? cliquable ?
La vidéo est très sommaire par rapport à l'innovation vantée dans l'article
2  0 
Avatar de Omote
Membre averti https://www.developpez.com
Le 30/05/2017 à 11:11
Les langages informatiques utilisés pour implémenter les différentes interfaces graphiques (GUI) sont spécifiques à chaque plateforme.
Heu, je ne suis pas expert en développement sur mobile mais il existe bien des solutions qui sont compatibles sur plusieurs plateformes (en tête j'ai Xamarin)? J'aurai plus tendance à utiliser une solution compatible multi-plateforme que d'avoir la même interface auto-généré mais avec du code différent en dessous (ne serais que pour la correction de bug).

Par contre d'un point de vue purement scientifique, je trouve cela très encourageant en terme de compréhension par la machine d'une image et sa "mise en pensé" via le code. Cela pourrait être intéressant dans des domaines comme la gestion de la circulation.
0  0