IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Présidentielle 2017: le Big Data peut-il vraiment prédire les deux qualifiés pour le second tour ?
Cinq étudiants prédisent un duel Le Pen vs Fillon

Le , par Malick

26PARTAGES

16  2 
Le débat sur les élections présidentielles en France continue de faire la une des médias. En effet, à quelques jours du premier tour de l'élection du Président de la République qui se déroulera le dimanche 23 avril 2017, de nombreux pronostics sont en train d'être faits sur qui des différents candidats sera le vainqueur à l'issue des élections. C'est donc dans le cadre de ces prédictions que cinq étudiants de l'école Télécom Paris Tech auraient annoncé ce jour avoir effectué une analyse Big Data afin de connaître les deux candidats qui devront s'affronter au second tour. En effet, au terme de leurs travaux, le groupe d'étudiants constitué de Mohamed Al Ani, Davy Bensoussan, Alexandre Brehelin, Bertrand de Véricourt et Raphaël Vignes se serait prononcé sur le fait qu'il y aura un second tour à l'élection présidentielle de 2017 et ce dernier opposera les deux candidats qualifiés à savoir Marine Le Pen et François Fillon. Notons que le second tour, s'il y a lieu, est prévu pour le dimanche 7 mai 2017.

Pour arriver à cette conclusion, les étudiants et auteurs de l'analyse se seraient appuyés sur une multitude de critères et principalement trois d'entre eux : une analyse des sondages effectués dans les différents départements, une analyse des prédictions pondérées par les résultats des recherches à partir du moteur de Google, et une analyse des différentes opinions recensées sur les réseaux sociaux en particulier Twitter. Le résultat des travaux menés par les cinq étudiants est détaillé ci-dessous.

Une analyse des sondages effectués dans les différents départements et au niveau de Twitter

Pour l'analyse des sondages dans les différents départements, combinée aux données de Twitter, les étudiants se sont basés sur quatre blocs d'électeurs (gauche, centre, droite, extrême droite) matérialisés comme suit :


L'exploitation des informations collectées auprès de l'éditeur Le Point montre que la combinaison entre les données issues des sondages par département et celles du réseau social Twitter montre que les chances de gagner la présidentielle pour Emmanuel Macron sont de l'ordre de 33 %. Quant à Jean-Luc Mélenchon, la probabilité pour qu'il l'emporte est estimée à 64 % alors que pour Benoît Hamon, elle est de 3 %.

Analyse des prédictions pondérées par les résultats des recherches à partir du moteur de Google

Pour ce critère, on nous informe que le groupe d'étudiants s’est inspiré de la dernière élection présidentielle américaine où la victoire de Trump a été prédite par Google, cela grâce à une analyse de la popularité des candidats sur la base des recherches faites sur le moteur de Google. Adoptant cette méthode dans le cadre des élections en France, les étudiants auraient utilisé une technique qui consiste à pondérer les données des quatre blocs cités plus haut avec les résultats des recherches issues de Google. À partir de là, ils en sont arrivés à conclure que la candidate Marine Le Pen est en tête du classement pour le second tour avec 24,13 %. Elle est suivie par son rival Jean-Luc Mélenchon (23,07 %). Le candidat François Fillon occupe la troisième place du classement avec 18,98 % juste devant Emmanuel Macron (17,85 %).


D'après les informations collectées, les données de recherches qui ont conduit les étudiants aux conclusions présentées dans le graphique ci-dessus concernent pour chaque candidat la période du 10 au 15 avril 2017.

En procédant à la combinaison des différents éléments notamment ceux issus du moteur de recherches Google, du réseau social Twitter ainsi que des différents sondages, les cinq étudiants seraient arrivés à prédire que les citoyens français pourraient assister au second tour à un duel opposant Marine Le Pen et François Fillon. En effet, comme le montre le schéma ci-après, Le Pen arrive en tête avec 24,13 % alors que Fillon est en deuxième position avec 21,77 %.


« L'algorithme que nous avons construit pour prédire les résultats des blocs est certes performant pour 2012, mais il ne se base que sur les variables que nous avons construites et des hypothèses que nous avons prises. D'autres variables entrent certainement en compte dans les choix de vote des citoyens », aurait soutenu le groupe d'étudiants.

Source : Le Point

Et vous ?

Que pensez-vous de cette prédiction ?

Pensez-vous que cette méthode d'analyse est fiable ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jipété
Expert éminent sénior https://www.developpez.com
Le 19/04/2017 à 8:27
Citation Envoyé par MikeRowSoft Voir le message
Sa ne changera pas mon vote.
Citation Envoyé par RyzenOC Voir le message
ok donc en gros sa sera Lepen
Tè, ça tombe bien, comme ils sont là tous les deux l'un derrière l'autre j'en profite, je fais d'une pierre deux coups, espérons que cette fois ça portera ses fruits (oui, car déjà signalé pour l'un, à croire qu'il est dur de la comprenette...)
Parce que de bon matin, ça pique grave les yeux, alors s'ils pouvaient faire l'effort de respecter les lecteurs, ça serait cool.
Sinon, qu'ils postent dans leur bloc-notes et que ça reste là-dedans.

Donc, si en écrivant "sa", on peut remplacer ce mot par "ma" ou "ta", c'est bien "sa" avec un esse.

Exemple c'est sa voiture --> ma voiture, ta voiture c'est bon, donc c'est bien le possessif, sa voiture.

Et si on ne peut pas :
sa ne changera pas --> ma ne changera pas, ta ne changera pas
sa sera Lepen --> ma sera Lepen, ta sera Lepen
dans les deux cas on voit bien ou plutôt, on "entend" bien qu'il y a un gros souci, donc dans les deux cas c'est "ça" avec la cédille.
C'est compliqué ?

Merci pour nous yeux qui pleurent , merci de respecter cette belle langue que vous mettez à mal à longueur de posts...

Et désolé pour le HS mais trop c'est trop.
Mais faut dire aussi que je me suis acheté, hier, "Au bonheur des fautes", écrit par une correctrice du Monde : c'est plein d'horreurs, et d'astuces pour les repérer et les corriger.

Et pour rester dans le sujet, j'espère juste que le Big Data se gourre dans les grandes largeurs.
17  7 
Avatar de ManusDei
Expert confirmé https://www.developpez.com
Le 21/04/2017 à 16:01
Citation Envoyé par Ryu2000 Voir le message
En parlant de vieux, Mélenchon a été au parti socialiste 30 ans, je crois qu'il a été sénateur pendant 20 ans.
Sa fille bosse dans la même branche, si ça se trouve c'est lui qui a créé le poste là où travail sa fille...
Si ça se trouve Asselineau est un agent de la CIA, dont le but est de décrédibiliser la lutte contre l'UE qu'ils ont contribué à construire pour affaiblir les pays d'Europe.
Si ça se trouve...
10  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 20/04/2017 à 14:53
Citation Envoyé par TallyHo Voir le message
Pas la peine de t'énerver, je te donne une information. Si tu connais une méthode parfaite, je suis tout ouïe... Surtout en stats...
Tu n'apportes rien de plus que ce que les autres ont apporté avant.

Et la question n'est pas d'avoir une méthode parfaite mais de connaître les tenants et aboutissants de la méthode utilisée. Une méthode dont on ne connaît pas les propriétés mais dont on part du principe que c'est pareil qu'une autre méthode, normalement ça te vaux un 0 à un contrôle. Je trouve effarant que des pros se permettent de parler de marges de x% sur la base d'une théorie dont ils savent qu'elle ne s'applique pas à leur cas. Ça donne un côté scientifique qui, dans les faits, n'existe pas.

Juste pour la forme, le code pénal définie l'escroquerie comme "le fait, soit par l'usage d'un faux nom ou d'une fausse qualité, soit par l'abus d'une qualité vraie, soit par l'emploi de manoeuvres frauduleuses, de tromper une personne physique ou morale et de la déterminer ainsi, à son préjudice ou au préjudice d'un tiers, à remettre des fonds, des valeurs ou un bien quelconque, à fournir un service ou à consentir un acte opérant obligation ou décharge". Si on considère la notion de représentativité affirmée par ces sondages comme une fausse qualité (pour ceux qui parlent de représentativité des résultats) ou comme un abus de qualité vraie (pour ceux qui font passer la représentativité de la population comme un gage de confiance sur les résultats). Si on considère que ces informations permettent aux votants de déterminer leurs choix de vote, potentiellement au préjudice d'une personne tierce (leur candidat favoris), typiquement pour favoriser un vote utile qui ne serait alors qu'une prophétie autoréalisatrice. Si on considère enfin que ce vote est un acte opérant décharge (délégation de pouvoir), et bien on est en plein dans de l'escroquerie.

Donc je ne pense pas qu'il soit exagéré de trouver cela scandaleux. Qu'ils fassent des sondages s'ils veulent, mais les réserves d'usage seraient non pas de dire que les résultats sont à prendre avec une marge de x%, mais que ces résultats ne sont pas forcément représentatifs et n'ont aucune valeur statistique, purement et simplement.
9  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 19/04/2017 à 10:01
Mouais. Je doute que les nombreuses recherches sur Fillon et ses affaires soient en faveur de son succès à la présidentielle. Ou sur le Pen et ses dérapages. Surtout que tout le monde sait très bien que ce sera un second tour Cheminade/Lassalle. {^.^}~
8  0 
Avatar de Jipété
Expert éminent sénior https://www.developpez.com
Le 19/04/2017 à 8:34
Citation Envoyé par ManusDei Voir le message
Sa te fait du mal Jipété ?
Ouais.
Franchement y en marre, surtout quand la méthode que je donne a déjà été exposée, sans aucun résultat. Elle est si compliquée que ça (vraie question !) ?
9  2 
Avatar de Voyvode
Membre émérite https://www.developpez.com
Le 19/04/2017 à 9:13
L'algorithme que nous avons construit pour prédire les résultats des blocs est certes performant pour 2012, mais il ne se base que sur les variables que nous avons construites et des hypothèses que nous avons prises. D'autres variables entrent certainement en compte dans les choix de vote des citoyens », aurait soutenu le groupe d'étudiants.
Sauf qu’en 2017, le web et les réseaux sociaux sont bien plus présents qu’en 2012.
À cela devrait s’ajouter une abstention supérieure aux autres années par la démobilisation de l’électorat qui n’a jamais rien su voter d’autre que l’UMPS. Ces gens-là sont généralement plus vieux et n’utilisent pas aussi naturellement le web que les plus jeunes (même s’il y a des exceptions), ce qui renforce le poids du web dans la masse électorale.

Citation Envoyé par Jipété
Et pour rester dans le sujet, j'espère juste que le Big Data se gourre dans les grandes largeurs.
Un 2nd tour Mélenchon/Le Pen balayerait une bonne partie de la classe politique actuelle, et c’est exactement ce qu’ils méritent. Ce qui arrive maintenant est la conséquence de leurs actes. Quand un employé fait de la merde, on le vire.
Macron, c’est le PS caviar qui s’est débarrassé de son aile gauche, de peur d’être pris pour des trotskistes. Fillon, c’est la droite puante qui fait dans la réaction pour essayer de piquer quelques électeurs au FN.

@wh6b
7  0 
Avatar de omen999
Rédacteur https://www.developpez.com
Le 20/04/2017 à 18:33
un résumé assez bien fait du principe de fonctionnement des sondages modernes
pour répondre à certaines interrogations légitimes de ce fil de discussion.
l'article a été écrit il y a 8 ans mais il est toujours d'actualité.

pour compléter le chapitre "Les questionnaires et les fausses déclarations" de cet article, petit rappel historique :
le sondage politique au sens moderne du terme a été popularisé aux USA par un certain G.H.Gallup
créateur en 1936 d'un institut éponyme.
l'application de la technique de "l'échantillon représentatif" - dont il n'est pas l'inventeur - lui permettra d'annoncer
l'élection de Franklin Roosevelt en 1936 et ce à moindre frais.
le succès est au rendez-vous et l'institut Gallup devient le partenaire incontournable des médias américains à compter de cette date.
Le 1er institut de sondage d'opinion français - l'IFOP - est créé en 1938 sur le même principe.
lorsque l'IFOP reprend ses activités après la guerre, elle découvrira très vite un décalage flagrant entre les intentions déclarées
et les votes exprimés lorsqu'ils concernent le parti communiste. (élections de 1946 : 28,3%)
ce décalage sera pris en compte en appliquant au résultat brut un coefficient inspiré des résultats précédents.
ce phénomène avéré est appelé "spirale du silence" dans l'article susvisé, "désidérabilité sociale" par les sociologues ou "l'effet Bradley"
quand il s'applique au biais racial aux USA.

on voit bien que ce retraitement des données brutes est un problème central pour tous les instituts de sondage qui doivent composer
entre la nécessité de l'appliquer de façon cohérente et la tentation de le modeler en fonction des attentes du client.
tentation facilitée par le fait qu'il n'existe en réalité aucun moyen rigoureux de le déterminer
le fait que le retraitement s'inspire des résultats antérieurs donne inévitablement aux intentions de vote "une inertie" qui ne rend compte
qu'avec retard des changements d'opinion (d'où la surestimation systématique des résultats du PC entre 1981 et 2002 et la sous-estimation
du FN pendant cette même période)
plutôt que de délirer sur une interdiction des sondages, il serait au contraire plus constructif d'imposer à ces instituts de publier
la TOTALITE de ceux-ci. (les données brutes, la logique des retraitements et le résultat final)
utopique évidemment
7  0 
Avatar de wh6b.
Nouveau membre du Club https://www.developpez.com
Le 19/04/2017 à 8:52
Ils n'ont pas su lire leurs résultats d'après leur algorithme très recherché "google+twitter+bigdata+machinelearning+mapreduce+agile+devops+startup+IA+scalability+AngularGO" le prochain président de la république sera :

#Monsieur SEXE

Franchement qu'y a t il de scientifique dans leur buzz travail ?
6  0 
Avatar de Mingolito
Membre extrêmement actif https://www.developpez.com
Le 20/04/2017 à 19:20
Pour ma part j'ai compris le texte de omen999 et j'ai rien compris au tien, désolé...

C'est toute la différence entre un Rédacteur et un Troll que veux tu
6  0 
Avatar de Mingolito
Membre extrêmement actif https://www.developpez.com
Le 23/04/2017 à 22:08
Cette méthode de geeks à fait moins bien que les sondages classiques, qui eux avaient tout bons et avais bien prédit le plus souvent Macron et Marine pour le 2eme tour.
Donc c'est pas parce que quelques jeunes geeks boutonneux font leur intéressant en utilisant des mots à la mode qu'ils peuvent détrôner l'expérience et le professionnalisme des vieux
6  0