Developpez.com

Le Club des Développeurs et IT Pro

Une équipe de Google Brain entraîne un bot à agréger des informations

Pour produire un article Wikipedia

Le 2018-02-19 09:17:12, par Stéphane le calme, Chroniqueur Actualités
Un article récemment publié par la Cornell University Library documente comment une équipe de Google Brain, un projet d’apprentissage profond (deep learning) conduit par la filiale d’Alphabet, apprend aux bots à agréger des informations trouvées sur différents sites afin de créer une page Wikipedia qui agrège sa découverte en un seul texte. En d'autres termes, faire comme les humains le font depuis janvier 2001, date à laquelle Wikipédia a été créée.

Peter J Liu, qui fait partie de l’équipe ayant mené ce projet, a expliqué que « Nous montrons que la génération d'articles Wikipedia en anglais peut être considérée comme une synthèse multidocuments de documents sources. Nous utilisons la synthèse extractive pour identifier les informations saillantes et un modèle abstractif neuronal pour générer l'article. Pour le modèle abstractif, nous introduisons une architecture décodeur uniquement qui peut prendre en charge de manière très évolutive des séquences très longues, beaucoup plus longues que les architectures typiques codeur-décodeur utilisées dans la transduction de séquence. Nous montrons que ce modèle peut générer des paragraphes multiphrases fluides et cohérents et mêmes des articles entiers de Wikipédia. Lorsqu'on nous donne des documents de référence, nous montrons qu'il peut extraire des informations factuelles pertinentes telles que reflétées dans la perplexité, les scores ROUGE (Recall-Oriented Understudy for Gisting Evaluation) et les évaluations humaines. »

À travers un processus appelé « résumé extractif », l’équipe de Google Brain enseigne à un bot comment identifier les informations pertinentes sur un sujet et à les organiser à travers un « modèle abstractif neuronal » pour créer un article.


Le modèle fonctionne en prenant les dix premières pages Web d'un sujet donné – en excluant l'entrée de Wikipédia – ou en extrayant des informations des liens dans la section des références d'un article de Wikipédia. La plupart des pages sélectionnées sont utilisées pour l’apprentissage, et quelques-unes sont retenues pour développer et tester le système.

Les paragraphes de chaque page sont classés et le texte de toutes les pages est ajouté pour créer un long document. Par la suite, le texte est codé puis raccourci, divisé en 32 000 mots individuels et utilisés comme entrée.

Pourtant, l'algorithme prend essentiellement des phrases plus longues, non originales et les réduits en plus courtes en utilisant un modèle abstractif, une solution astucieuse utilisée à la fois pour créer et résumer un texte. Les phrases du texte généré proviennent en fait du texte précédent, elles ne sont pas construites de rien. Ce qui peut expliquer pourquoi la structure du texte peut s’avérer répétitive et rigide.

Mohammad Saleh, coauteur de l'article et membre de l’équipe, a expliqué que « La phase d'extraction est un goulot d'étranglement qui détermine quelles parties de l'entrée seront utilisées pour l'étape d'abstraction. Idéalement, nous aimerions transmettre tous les commentaires des documents de référence. »

Et de poursuivre en disant que « La conception de modèles et de matériel pouvant prendre en charge des séquences d'entrée plus longues est actuellement un domaine de recherche actif qui peut atténuer ces limitations. »

En somme, pour l’instant, nous sommes encore très loin d'une synthèse ou d'une génération de texte efficace. Et même si le projet Google Brain est plutôt intéressant, il serait probablement imprudent d'utiliser un tel système pour générer automatiquement des entrées sur Wikipedia.

Néanmoins, Google a affirmé que « Pour encourager d'autres recherches sur le résumé à grande échelle, nous publierons les URL utilisées dans notre expérience (l'URL Wikipedia ainsi que les URL de ses références) qui sont disponibles dans le cadre du dataset CommonCrawl4, qui est disponible gratuitement en téléchargement ».

Google s’est servi de la bibliothèque open source tensor2tensor pour l’apprentissage des modèles abstractifs et va également publier les extensions de code de modélisation abstractive.

Source : bibliothèque de l'université Cornell

Et vous ?

Que pensez-vous de ce type de projet ? Quelles retombées possibles entrevoyez-vous s'il venait à être amélioré ?
  Discussion forum
13 commentaires
  • Neckara
    Inactif
    C'est bien gentil mais si on prend les 10 premiers sites sur certains domaine, à tout hasard "voyance", on va trouver quasi-exclusivement des sites soutenant le bien fondé de la voyance... donc ainsi obtenir un article Wikipédia qui va nous dire que la voyance, ça marche, et c'est trop génial .
  • On leur souhaite bien du courage ...

    Je ne pense pas qu'ils envisagent dans un futur proche d'en faire une application fonctionnelle étant donné que l'IA malgré le bon de géant qu'elle accomplit est loin des capacités cognitives d'un cerveau humain adulte, notamment sur le langage.

    Mais l'initiative est à saluer puisqu'elle ouvre la voie vers sans doute de nouvelles méthodes et découvertes.
  • micka132
    Expert confirmé
    Envoyé par Saverok
    Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
    Ben vu les délires actuels autour des fake news, nos dirigeants semblent croire que la majorité des humains n'en sont pas capables, donc une IA ne fera pas pire .
  • Saverok
    Expert éminent
    Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
    Le nombre ne peut absolument pas être un critère.
    A une époque, la grande majorité de la planète pensait que la Terre était plate et que c'était le Soleil qui tournait autour du Soleil.
    Les rares personnes qui osaient prétendre le contraire étaient considérés comme fou et hérétique et condamnés au bûcher.
    A cette époque, avec le nombre comme critère, une IA aurait conclu que la Terre était plate

    Autre exemple bien plus actuel : celui de la reconnaissance faciale par les IA qui ont confondu les personnes noires avec des gorilles.
    ==> http://www.bfmtv.com/international/google-confond-le-portrait-d-afro-americains-avec-des-gorilles-898885.html
    La raison est toute simple : l'IA a été très majoritairement entraînée à reconnaître des hommes blancs.
    Du coup, elle se plante dès qu'elle sort du cadre de son entraînement.

    Vue le nombre quasi infini de sujets possibles sur Wikipédia, comment vont ils pouvoir entraîner cette IA ?
    Va t'elle devoir se limiter à un nombre très restreint de sujet ?
    Vue le temps qu'il faudra pour entraîner cette IA pour automatiser le temps de traitement de seulement un petit nombre de sujets, est-ce que ça aura du sens de le faire ?
  • Mat.M
    Expert éminent sénior
    Envoyé par Saverok
    Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
    remarque elle-même pertinente et pleine de bon sens..
    encore faut-il déterminer ce qui relève précisément de la pertinence.
    Sur quelles normes peut-on se baser pour affirmer que telle ou telle chose est pertinente ?
    Une fois que l'on a déterminé des normes elles peuvent relever de la subjectivité histoire de compliquer les choses.
    Ensuite il y a toute la problèmatique d'interprétation du réel en lui-même et de sa représentation
  • matthius
    Inactif
    Je pense qu'il est facile de créer des articles Wikipedia.
    En effet, vu la complexité des articles, un bot pourra facilement être aussi difficile à lire.
  • Saverok
    Expert éminent
    Envoyé par Mat.M
    remarque elle-même pertinente et pleine de bon sens..
    encore faut-il déterminer ce qui relève précisément de la pertinence.
    Sur quelles normes peut-on se baser pour affirmer que telle ou telle chose est pertinente ?
    Une fois que l'on a déterminé des normes elles peuvent relever de la subjectivité histoire de compliquer les choses.
    Ensuite il y a toute la problèmatique d'interprétation du réel en lui-même et de sa représentation
    Excellente remarque.
    Pour y répondre, une équipe de Google Brain a décidé d'entraîner une IA pour y répondre
  • marsupial
    Expert éminent
    Le projet doit être génial à concevoir.
    Le positif : obtenir une synthèse rapide sur tous les sujets scientifiques, recherche, je pense à phys.org.
    Le négatif : ma biographie sur Wikipedia est-elle pour bientôt ? ( big brother pourrait éviter de se pencher dessus, ce serait bien )
  • Betameche
    Membre habitué
    Bonjour,

    Envoyé par Stéphane le calme
    En d'autres termes, faire comme les humains le font depuis avril 2008, date à laquelle Wikipédia a été créée.
    @Neckara, à moins qu'une partie de la phrase m'échappe, apparemment les humains aussi font des erreurs .

    PS: Pour la bonne date cf: https://fr.wikipedia.org/wiki/Wikipédia
  • Luckyluke34
    Membre émérite
    L'expérience en elle-même est très intéressante, mais je m'interroge sur le choix de l'article Wikipedia comme type d'output. Wikipedia c'est une éthique et un art de mettre en contraste les différents points de vue sur un même sujet, donc différent d'un simple agrégateur de sources.

    Quand on regarde l'exemple d'output qu'ils ont mis en annexe dans le papier, ça casse pas trois pattes à un canard : répétitions, tonalité commerciale, ponctuation laissant à désirer...