
Développé par Jalal Mahmud, Jeffrey Nichols et Clemens Drews, chercheurs au centre de recherche d’Almaden d’IBM, il est basé sur deux algorithmes distincts qui combinés, peuvent prédire avec un certain taux de réussite la localisation précise de l’utilisateur.
Le premier algorithme étudie le comportement de l’utilisateur comme le nombre de tweets et l’heure d’envoi, corrélé à des informations ou des dictionnaires externes comme les noms de lieux des services disponibles sur la plateforme Foursquare.
Sur cette base, le second algorithme permet de prédire dans un premier temps le fuseau horaire, la zone géographique ou encore l’état fédéral/département, puis il se charge de prédire la ville de résidence en se basant sur les premières prédictions (fuseau horaire, zone géographique, etc.) avec un taux de réussite variant selon le paramètre utilisé (l’utilisation des fuseaux horaires donne les meilleures prédictions, avec un taux de réussite de 68%).
Les chercheurs ont par ailleurs détaillé les données utilisées pour créer leur classifieur (famille d'algorithmes de classement statistique) : 1,5 million de tweets émanant de 9 551 utilisateurs, ainsi que des données extraites des tweets qui varient entre de simples mots, des hashtags ou encore les noms de lieux des villes et des états cités.
L’étude conclut sur des cas d’utilisation, comme un journaliste qui suit des évènements sur Twitter et qui souhaiterait déterminer si la source est proche ou non des lieux de l’évènement, mais aussi, sur des recommandations permettant à un journaliste/blogueur de rester anonyme sur sa géolocalisation.
Source : Publication des chercheurs d’IBM
Et vous ?
