Developpez.com

Le Club des Développeurs et IT Pro

Un système de machine learning mis en place par des étudiants détecte les tweets publiés en état d'ivresse

Et permet de géolocaliser leurs auteurs

Le 2016-03-19 20:56:46, par Victor Vincent, Expert éminent sénior
Une équipe d’étudiants de l’université de Rochester a mis au point un système de machine learning capable de détecter si un tweet a été envoyé alors que l’auteur était en état d'ivresse. Le système d’apprentissage automatique permet également de géolocaliser les auteurs de ces tweets. Les étudiants l’ont fait savoir dans un article scientifique paru le 10 mars dernier. Dans le document, l’équipe de chercheurs explique la procédure d’apprentissage automatique utilisée pour arriver à ce résultat.

Avant de commencer à implémenter un algorithme, l’équipe a tout d’abord procédé à une phase de collecte de données sur Twitter, des données publiques comportant une information de géolocalisation et qui ont été envoyées sur le réseau social entre janvier et juillet 2014, dans le comté de Monroe et dans la ville de New York. Après cette phase de collecte, l’équipe de chercheurs a procédé à un affinement des données en ne conservant que les messages contenant les mots clés : « alcool », « bière », « saoul », « bourré », etc. grâce à un système de filtre. Les messages retenus après avoir appliqué le filtre ont été ensuite analysés par des internautes indépendants, sur la plateforme Amazon Mechanical Turk, pour dire si le message fait référence à l’alcool et si l’auteur était en état d'ivresse au moment où il l’envoyait. Avec les résultats obtenus, les chercheurs ont pu déterminer les zones de consommation d’alcool en fonction des tweets associés à l’alcool. Les zones de forte consommation d’alcool sont représentées par la couleur rouge comme sur la figure suivante.


À la fin de ces différentes étapes, les étudiants de l’université de Rochester ont pu construire une base de données avec quelque onze mille messages qui vont être ensuite utilisés pour entrainer le moteur d’inférence qui permet de détecter un tweet publié en état d'ivresse. Les messages ont ensuite été étudiés une deuxième fois pour déterminer cette fois, la localisation des personnes ainsi que le moment de la journée pendant lequel elles étaient en train de boire. Un deuxième filtre a ainsi été appliqué aux messages avec comme mots clés : « maison », « enfin rentré », « canapé », « TV », « douche », « bain », etc. Ces résultats ont été couplés à la géolocalisation ainsi que le pourcentage de messages envoyés dans une même zone afin de déterminer avec une précision à 100 mètres près la localisation de l’individu au moment d’envoyer le tweet. L’équipe de chercheurs composée de quatre informaticiens et d’un psychiatre affirme que les résultats ainsi obtenus sont fiables à 80 %.

Le système de machine learning développé par les étudiants de l’université de Rochester a pour but de fournir des données qui sont destinées aux municipalités ainsi qu’aux services de santé publique pour que ces derniers mettent en place des politiques de prévention. D’après les auteurs de l’étude, leur système va aider dans la compréhension et la lutte contre les questions de santé publique en relation avec l’alcool. Par ailleurs, l’équipe indique que leur système d’apprentissage automatique peut être utilisé avec d’autres variables pour étudier d’autres comportements.

Source : arxiv.org

Et vous ?

Que pensez-vous de ce système mis en place par les étudiants de l'université de Rochester ?

Voir aussi

le forum Intelligence artificielle
  Discussion forum
11 commentaires
  • Il y aurait donc des gens qui publieraient des tweets sans être saoul ?
  • frantzgac
    Membre actif
    Il va falloir s'habituer à ce que de simples rapprochements statistiques déterminent des normes comportementales, identitaires, idéologiques ...
    Récemment j'ai vu un système d'évaluation de la santé du coeur par des questions du genre "maradonna" vous fait penser 1) au football 2) à une chanteuse flippée. On voit que les amateurs de musique décadente sont associés à des larves et les amoureux du sport télévisuel à des athlètes. C'est affligeant mais ça fait toujours rigoler.
    Comme toujours ce n'est pas le couteau qui est une erreur mais celui qui l'empoigne par la lame.
  • Matthieu Vergne
    Expert éminent
    Mouais, si le jeu d'apprentissage identifie les tweets "bourrés" sur la base du jugement des lecteurs du tweet plutôt que sur la base d'un état d'ébriété mesuré, je donne pas cher de sa qualité. Qui plus est, il faudrait corrélé la concentration de tweets bourrés à la concentration de tweets tout court : si on voit que les tweets viennent principalement de personnes dans les même environs, je pencherai plutôt pour dire que notre image ne fait que représenter la densité de population, le bourrage de cette population étant je pense relativement homogène. Bref, y'a des choses à confirmer.
  • RyzenOC
    Inactif
    Je vois pas comment c'est possible de voir si un tweet et écrit par une personne sobre ou pas.

    Puis que le niveau de langage n'est pas le même pour tous le monde, certains étant plus soutenus que d'autre
    Certains font des fautes d'orthographe a chaque phrase (c'est mon cas, mais je suis pas ivre pour autant)
    Et enfin certains se lâche complétement sur internet et déballe leurs vie, et ne font pas attentions aux conséquences/a leurs images, et d'autre non, ne font pas n'importe quoi.

    Combien de personnes sur ces réseau socio se font insulter de raciste, homophobe, connard etc, à cause d'une phrase mal interprété ? il y'aura la même problématique avec cette algo à mon avis.
  • CoderInTheDark
    Membre émérite
    Une fonction avait été testé, sur une messagerie.

    Après une certaine heure elle posait une question ou faisait faire un test de logique, pour vérifier que l'utilisateur n'étais pas bourré.
    Ca me parait plus fiable.

    Sinon on peut imaginer un ethylotest, pour téléphone souffler pour utiliser un téléphone sans avoir un coup dans le nez.
    Si il était tro
  • Zhebulon
    Membre habitué
    En somme, pas loin de Minority Report, joyeux monde de surveillance généralisée, accès à datas personnelles etc, au lieu de surveiller les vrais désaxés. Vive le Cloud en passant...
  • derderder
    Membre averti
    Big Browser ? Un amateur obsolète...
    Totalement flippant les conclusions qu'on peut faire à partir d'un message de moins de 140 caractères, je suis content de ne pas être sur ces résaux même si il doit être possible d'appliquer ce genre de méthode sur ce message...
  • Zefling
    Expert confirmé
    Envoyé par derderder
    Totalement flippant les conclusions qu'on peut faire à partir d'un message de moins de 140 caractères, je suis content de ne pas être sur ces résaux même si il doit être possible d'appliquer ce genre de méthode sur ce message...
    Il n'y a pas besoin de 140 caractères pour savoir si quelqu'un est bourré. J'ai reçu des SMS où l'on voit tout de suite la personne qui a été le message est bourré : trop de fautes, quasiment incompréhensibles, des caractères en trop, etc. De plus, sur un smartphone, 140 caractères pour quelqu'un de bourré c'est beaucoup.
  • TiranusKBX
    Expert confirmé
    le coup de filtrage avec des mots faisant référence à l'alcool ou l'alcoolémie c'est stupide, si le mec n'en parle pas et qu'il est bourré il n'est pas "détecté" du coup tu doit passer à côté d'un tiers à la moitié des tweets en fonction du degré d'éducation du secteur concerné
  • herve4
    Membre habitué
    ALORS LA, ZE DIS CHAPO BAS MOOOOOOOSSSSSSSIEEEUR LE TWEETOMAN,

    C'EST VRAIEMENT TROP BIEN SUPER.... MAIS COBENT CA MARCHE ?