Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une équipe de Google Brain entraîne un bot à agréger des informations
Pour produire un article Wikipedia

Le , par Stéphane le calme

21PARTAGES

7  0 
Un article récemment publié par la Cornell University Library documente comment une équipe de Google Brain, un projet d’apprentissage profond (deep learning) conduit par la filiale d’Alphabet, apprend aux bots à agréger des informations trouvées sur différents sites afin de créer une page Wikipedia qui agrège sa découverte en un seul texte. En d'autres termes, faire comme les humains le font depuis janvier 2001, date à laquelle Wikipédia a été créée.

Peter J Liu, qui fait partie de l’équipe ayant mené ce projet, a expliqué que « Nous montrons que la génération d'articles Wikipedia en anglais peut être considérée comme une synthèse multidocuments de documents sources. Nous utilisons la synthèse extractive pour identifier les informations saillantes et un modèle abstractif neuronal pour générer l'article. Pour le modèle abstractif, nous introduisons une architecture décodeur uniquement qui peut prendre en charge de manière très évolutive des séquences très longues, beaucoup plus longues que les architectures typiques codeur-décodeur utilisées dans la transduction de séquence. Nous montrons que ce modèle peut générer des paragraphes multiphrases fluides et cohérents et mêmes des articles entiers de Wikipédia. Lorsqu'on nous donne des documents de référence, nous montrons qu'il peut extraire des informations factuelles pertinentes telles que reflétées dans la perplexité, les scores ROUGE (Recall-Oriented Understudy for Gisting Evaluation) et les évaluations humaines. »

À travers un processus appelé « résumé extractif », l’équipe de Google Brain enseigne à un bot comment identifier les informations pertinentes sur un sujet et à les organiser à travers un « modèle abstractif neuronal » pour créer un article.


Le modèle fonctionne en prenant les dix premières pages Web d'un sujet donné – en excluant l'entrée de Wikipédia – ou en extrayant des informations des liens dans la section des références d'un article de Wikipédia. La plupart des pages sélectionnées sont utilisées pour l’apprentissage, et quelques-unes sont retenues pour développer et tester le système.

Les paragraphes de chaque page sont classés et le texte de toutes les pages est ajouté pour créer un long document. Par la suite, le texte est codé puis raccourci, divisé en 32 000 mots individuels et utilisés comme entrée.

Pourtant, l'algorithme prend essentiellement des phrases plus longues, non originales et les réduits en plus courtes en utilisant un modèle abstractif, une solution astucieuse utilisée à la fois pour créer et résumer un texte. Les phrases du texte généré proviennent en fait du texte précédent, elles ne sont pas construites de rien. Ce qui peut expliquer pourquoi la structure du texte peut s’avérer répétitive et rigide.

Mohammad Saleh, coauteur de l'article et membre de l’équipe, a expliqué que « La phase d'extraction est un goulot d'étranglement qui détermine quelles parties de l'entrée seront utilisées pour l'étape d'abstraction. Idéalement, nous aimerions transmettre tous les commentaires des documents de référence. »

Et de poursuivre en disant que « La conception de modèles et de matériel pouvant prendre en charge des séquences d'entrée plus longues est actuellement un domaine de recherche actif qui peut atténuer ces limitations. »

En somme, pour l’instant, nous sommes encore très loin d'une synthèse ou d'une génération de texte efficace. Et même si le projet Google Brain est plutôt intéressant, il serait probablement imprudent d'utiliser un tel système pour générer automatiquement des entrées sur Wikipedia.

Néanmoins, Google a affirmé que « Pour encourager d'autres recherches sur le résumé à grande échelle, nous publierons les URL utilisées dans notre expérience (l'URL Wikipedia ainsi que les URL de ses références) qui sont disponibles dans le cadre du dataset CommonCrawl4, qui est disponible gratuitement en téléchargement ».

Google s’est servi de la bibliothèque open source tensor2tensor pour l’apprentissage des modèles abstractifs et va également publier les extensions de code de modélisation abstractive.

Source : bibliothèque de l'université Cornell

Et vous ?

Que pensez-vous de ce type de projet ? Quelles retombées possibles entrevoyez-vous s'il venait à être amélioré ?

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de Neckara
Expert éminent sénior https://www.developpez.com
Le 19/02/2018 à 10:56
C'est bien gentil mais si on prend les 10 premiers sites sur certains domaine, à tout hasard "voyance", on va trouver quasi-exclusivement des sites soutenant le bien fondé de la voyance... donc ainsi obtenir un article Wikipédia qui va nous dire que la voyance, ça marche, et c'est trop génial .
6  0 
Avatar de captaindidou
Inactif https://www.developpez.com
Le 19/02/2018 à 10:48
On leur souhaite bien du courage ...

Je ne pense pas qu'ils envisagent dans un futur proche d'en faire une application fonctionnelle étant donné que l'IA malgré le bon de géant qu'elle accomplit est loin des capacités cognitives d'un cerveau humain adulte, notamment sur le langage.

Mais l'initiative est à saluer puisqu'elle ouvre la voie vers sans doute de nouvelles méthodes et découvertes.
3  0 
Avatar de micka132
Expert confirmé https://www.developpez.com
Le 19/02/2018 à 13:12
Citation Envoyé par Saverok Voir le message
Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
Ben vu les délires actuels autour des fake news, nos dirigeants semblent croire que la majorité des humains n'en sont pas capables, donc une IA ne fera pas pire .
3  0 
Avatar de Saverok
Expert éminent https://www.developpez.com
Le 19/02/2018 à 13:09
Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
Le nombre ne peut absolument pas être un critère.
A une époque, la grande majorité de la planète pensait que la Terre était plate et que c'était le Soleil qui tournait autour du Soleil.
Les rares personnes qui osaient prétendre le contraire étaient considérés comme fou et hérétique et condamnés au bûcher.
A cette époque, avec le nombre comme critère, une IA aurait conclu que la Terre était plate

Autre exemple bien plus actuel : celui de la reconnaissance faciale par les IA qui ont confondu les personnes noires avec des gorilles.
==> http://www.bfmtv.com/international/google-confond-le-portrait-d-afro-americains-avec-des-gorilles-898885.html
La raison est toute simple : l'IA a été très majoritairement entraînée à reconnaître des hommes blancs.
Du coup, elle se plante dès qu'elle sort du cadre de son entraînement.

Vue le nombre quasi infini de sujets possibles sur Wikipédia, comment vont ils pouvoir entraîner cette IA ?
Va t'elle devoir se limiter à un nombre très restreint de sujet ?
Vue le temps qu'il faudra pour entraîner cette IA pour automatiser le temps de traitement de seulement un petit nombre de sujets, est-ce que ça aura du sens de le faire ?
2  0 
Avatar de Mat.M
Expert éminent sénior https://www.developpez.com
Le 19/02/2018 à 13:29
Citation Envoyé par Saverok Voir le message
Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
remarque elle-même pertinente et pleine de bon sens..
encore faut-il déterminer ce qui relève précisément de la pertinence.
Sur quelles normes peut-on se baser pour affirmer que telle ou telle chose est pertinente ?
Une fois que l'on a déterminé des normes elles peuvent relever de la subjectivité histoire de compliquer les choses.
Ensuite il y a toute la problèmatique d'interprétation du réel en lui-même et de sa représentation
2  0 
Avatar de matthius
Membre extrêmement actif https://www.developpez.com
Le 19/02/2018 à 11:13
Je pense qu'il est facile de créer des articles Wikipedia.
En effet, vu la complexité des articles, un bot pourra facilement être aussi difficile à lire.
1  0 
Avatar de Saverok
Expert éminent https://www.developpez.com
Le 19/02/2018 à 13:39
Citation Envoyé par Mat.M Voir le message
remarque elle-même pertinente et pleine de bon sens..
encore faut-il déterminer ce qui relève précisément de la pertinence.
Sur quelles normes peut-on se baser pour affirmer que telle ou telle chose est pertinente ?
Une fois que l'on a déterminé des normes elles peuvent relever de la subjectivité histoire de compliquer les choses.
Ensuite il y a toute la problèmatique d'interprétation du réel en lui-même et de sa représentation
Excellente remarque.
Pour y répondre, une équipe de Google Brain a décidé d'entraîner une IA pour y répondre
1  0 
Avatar de marsupial
Membre expert https://www.developpez.com
Le 19/02/2018 à 10:18
Le projet doit être génial à concevoir.
Le positif : obtenir une synthèse rapide sur tous les sujets scientifiques, recherche, je pense à phys.org.
Le négatif : ma biographie sur Wikipedia est-elle pour bientôt ? ( big brother pourrait éviter de se pencher dessus, ce serait bien )
0  0 
Avatar de Betameche
Membre habitué https://www.developpez.com
Le 19/02/2018 à 13:01
Bonjour,

Citation Envoyé par Stéphane le calme Voir le message
En d'autres termes, faire comme les humains le font depuis avril 2008, date à laquelle Wikipédia a été créée.
@Neckara, à moins qu'une partie de la phrase m'échappe, apparemment les humains aussi font des erreurs .

PS: Pour la bonne date cf: https://fr.wikipedia.org/wiki/Wikipédia
0  0 
Avatar de Luckyluke34
Membre émérite https://www.developpez.com
Le 21/02/2018 à 13:34
L'expérience en elle-même est très intéressante, mais je m'interroge sur le choix de l'article Wikipedia comme type d'output. Wikipedia c'est une éthique et un art de mettre en contraste les différents points de vue sur un même sujet, donc différent d'un simple agrégateur de sources.

Quand on regarde l'exemple d'output qu'ils ont mis en annexe dans le papier, ça casse pas trois pattes à un canard : répétitions, tonalité commerciale, ponctuation laissant à désirer...
0  0