Developpez.com

Le Club des Développeurs et IT Pro

Un logiciel développé par une startup romande pour traquer les écrivains fantômes

A été testé sur Sarkozy et Bayrou

Le 2016-02-28 23:20:21, par Michael Guilloux, Chroniqueur Actualités
Le phénomène de Ghostwriting ou d’écrivain fantôme est soupçonné de prendre de l’ampleur même dans les meilleures universités de nombreux pays dans le monde. Il s’agit d’une pratique de facilité dans laquelle des étudiants se paient les services d’autrui pour rédiger à leur place des travaux universitaires notamment thèses et mémoires. À l’instar des plagiats, il s’agit d’un phénomène qui préoccupe les universités et grandes écoles, mais contre lequel il n’y a jusqu’à présent pas vraiment de moyen de détection et de lutte.

Une startup romande basée à Martigny a donc décidé de se lancer à la chasse des étudiants qui ont recours à cette forme de tricherie, grâce à un logiciel actuellement en phase de test, qui permettrait de détecter cela.

L’algorithme de détection élaboré par la société OrphAnalytics s’inspire de la recherche sur le génome. Selon Claude-Alain Roten, concepteur du logiciel, « chaque individu a un style d’écriture homogène ». En découpant un texte en plusieurs séquences, il est donc fort probable de savoir si ce texte a été écrit par plusieurs personnes. Le programme découpe en effet le texte en plusieurs séquences de taille identique auxquelles il cherche à attribuer une identité. Effets de style, fréquences et longueurs des mots, constructions des phrases, toutes ces caractéristiques stylistiques sont analysées statistiquement. En comparant différents travaux attribués à un même étudiant, on peut également savoir s’il s’agit des mêmes empreintes de style, donc du même auteur.

Le logiciel fonctionnerait dans toutes les branches académiques, du français médiéval à la finance, et dans différentes langues testées. Le logiciel a été testé sur la célèbre série de romans suédois Millénium. La série a été écrite par deux auteurs différents, les trois premiers ouvrages de la série (Millénium 1, 2 et 3) ont été écrits par Stieg Larsson (SL), alors que le quatrième (Millénium 4) a été écrit par David Lagercrantz (DL). Ce dernier a également écrit deux autres livres (Alan Turing et Everest), qui traitent de thèmes totalement différents de la série Millénium. Les résultats de l’analyse statistique des styles d’écriture sont donnés dans le graphique suivant.

Il faut avant tout savoir que chaque point représente l’identité d’une séquence de texte. L’empreinte d’une même personne devrait donc former un même nuage de points. On voit que les ouvrages de Stieg Larsson se distinguent de ceux de David Lagercrantz par deux nuages de points distincts. Ce qui montre donc qu’il s’agit de deux auteurs distincts. Le plus intéressant, c’est que les empreintes des deux derniers livres de David Lagercrantz rejoignent celle de Millénium 4, bien que les thèmes traités par l’auteur soient différents. Ce qui pourrait permettre de dire que l’empreinte d’une personne n’est pas liée au thème traité.


Régulièrement soupçonnés de faire appel à des écrivains fantômes, François Bayrou (FB) et Nicolas Sarkozy (NS) ont été également soumis à ce logiciel à travers respectivement cinq et six ouvrages qui leur sont attribués. À l’issue des analyses, Bayrou peut se voir blanchir alors que le logiciel a permis de détecter trois empreintes stylistiques différentes (trois nuages de points distincts) chez Sarkozy. Claude-Alain Roten fait toutefois remarquer que le logiciel « ne donne pas une preuve irréfutable du ghostwriting », mais « il met en avant les textes suspects ».


Source : RTS

Et vous ?

Qu’en pensez-vous ?
  Discussion forum
14 commentaires
  • nanopowered
    Membre régulier
    Sarko emploierait donc 3 nègres différents alors que Bayrou emploie toujours le même !
  • raphchar
    Membre éclairé
    Envoyé par tomlev
    Intéressant, mais sans doute pas très fiable... D'autant plus que ça se base sur une hypothèse un peu douteuse :

    Je pense qu'il changerait d'avis s'il lisait la Horde du Contrevent (que je recommande chaudement d'ailleurs) !

    Quant au fait que les politiques fassent souvent appel à des ghostwriters, c'est un secret de polichinelle...
    Il faudrait le résultat du logiciel sur cette œuvre pour vérifier. Après même si certains romans des différences peuvent être ressenties, dans un mémoire il n'y a pas de raison que le style soit non homogène et c'est à la détection de tricherie que s'intéresse l'outil. Après même s'il y a un nègre unique pour la rédaction d'un mémoire, je suppose que l'on peut comparer le résultat avec un échantillon du présumé écrivain pris lors d'examens.
    Mais je suis d'accord qu'il faudrait faire plein de tests pour ce genre de chose.

    NB : je serai curieux de savoir comment ils détectent les figures de style, surtout dans une langue arbitraire.
    NB2 : ça fonctionne aussi avec des mémoires en maths ? Car je ne sais pas si on peut y trouver de vrai style d'écriture.
  • zebiloute
    Membre habitué
    Envoyé par Zefling
    Je pense qu'il regarde la façon qu'on a d'écrire. Il y a certaines tournures de phrases que les fait de façon fréquente sans vraiment s'en rendre compte... Et même si on s'en rend compte, c'est assez difficile de changer radicalement ça façon d'écrire sauf peut-être pour quelques exceptions. Mais je pense pas que ça soit du niveau des politiques ou des écrivains de romans « populaires ».
    Justement, c'est peut être là la faiblesse de l'analyse. A ce que j'en sais en l'écoutant et en lisant un peu, Mr Sarkozy avait un niveau de Français déplorable pour quelqu'un ayant fait des études de loi et entouré de conseillés en communications. Ses discours étaient écrits par d'autres. Il a profité de son après-présidence pour lire, et sans doute écrire. Ou tout du moins apprendre à écrire. Et je ne doute pas que dans son entourage nombreuses sont les personnes qui ont pu le conseiller. Du coup, que son dernier livre soit totalement différent me parait normal.

    Je serais bien curieux de voir se que donne ce logiciel en comparant Romain Gary et Émile Ajar, et si le correspondance est si élevée.
  • laerne
    Membre éprouvé
    C'est probablement une adaptation du Hidden Markov Model pour grande échelle, combinée par un calcul peaufiné d'entropie.

    Envoyé par raphchar
    NB2 : ça fonctionne aussi avec des mémoires en maths ? Car je ne sais pas si on peut y trouver de vrai style d'écriture.
    As-tu déjà lu différents bouquins de math? Moi, oui. Et la réponse est oui, il y a différent style d'écriture. Certains sont très concis et dévolopper chaque étape d'une explication peur peut prendre une page de calcul. D'autres sont très verbeux et sortent des gros bouquin avec tout les détails. Il y a même différents style de symboles utilisés. Certains écrive \[\mathbf{R}\setminus \{0\}\] d'autres \[\mathbb{R}^*\] d'autres \[\mathbb{R}_0\], …

    Ce qui est marrant avec les bouquins de math, par contre, c'est qu'ils sont écrit en LaTeX, ce qui veut dire que soit ils parsent un PDF avec des symboles exotiques incrustés dans tout le texte. Soit ils parsent un document LaTeX, en devant tenir compte des commandes et en devant demander les sources aux auteurs qu'ils souhaitent comparer…
  • Max Lothaire
    Membre confirmé
    Envoyé par Bousk
    Zut, dès lors que tu sors un premier texte, tu n'as plus le droit de changer de forme ou style d'écriture sans te faire tâcler
    Le champs d'application étant restreint aux travaux universitaires, la probabilité que le style d'un étudiant change radicalement est plutôt faible. Mais si cela devait quand même arriver, on pourrait également observer ces changements dans les copies d'examens.

    Après, il faut voir si ces outils anti-triche sont déployés systématiquement ou seulement quand il y a soupçons de triche.
  • tomlev
    Rédacteur/Modérateur
    Intéressant, mais sans doute pas très fiable... D'autant plus que ça se base sur une hypothèse un peu douteuse :

    « chaque individu a un style d’écriture homogène »
    Je pense qu'il changerait d'avis s'il lisait la Horde du Contrevent (que je recommande chaudement d'ailleurs) !

    Quant au fait que les politiques fassent souvent appel à des ghostwriters, c'est un secret de polichinelle...
  • Zefling
    Expert confirmé
    Je pense qu'il regarde la façon qu'on a d'écrire. Il y a certaines tournures de phrases que les fait de façon fréquente sans vraiment s'en rendre compte... Et même si on s'en rend compte, c'est assez difficile de changer radicalement ça façon d'écrire sauf peut-être pour quelques exceptions. Mais je pense pas que ça soit du niveau des politiques ou des écrivains de romans « populaires ».
  • ddoumeche
    Membre extrêmement actif
    Envoyé par tomlev

    Quant au fait que les politiques fassent souvent appel à des ghostwriters, c'est un secret de polichinelle...
    Erik Orsenna
    En même temps, ce n'est pas une honte... tant que vous avez un minimum de culture littéraire. Mais il se font bien rares les hommes de lettres
  • Alfred12
    Membre habitué
    J'ai bien analysé le graphique. Il semblerait que Bayrou ait écrit une partie des bouquins de Sarkosy.
  • Glutinus
    Inactif
    Envoyé par tomlev
    Quant au fait que les politiques fassent souvent appel à des ghostwriters, c'est un secret de polichinelle...
    Oui, mais comme c'est un fait quasi-avéré, on n'est pas surpris par la démonstration avec N. Sarkozy.

    Envoyé par tomlev
    Je pense qu'il changerait d'avis s'il lisait la Horde du Contrevent (que je recommande chaudement d'ailleurs) !
    Sauf que c'est un réel exercice de style, car on voit vraiment différents personnages. Et puis c'est un roman.
    Le but de l'appli c'est plutôt pour des essais et travaux académiques, pas vraiment littéraires.

    Ceci dit, je suis curieux, si on mélange les bouquins de Marc Lévy et Guillaume Musso, n'aura-t-on pas de drôles de surprise

    Et évidemment, il y a des auteurs qu'on a accusés d'utiliser des nègres comme Paul *kof* Loup *kof * Sulit *kof* zer *kof* ou Alexandre Dumas, dont la productivité semble anormalement élevée.