Méthodologie d’attribution des notes sondeurs

Dans le cadre de la campagne présidentielle 2022, Datapolitics a construit un agrégateur de sondages permettant de visualiser les dynamiques pour chaque candidat. L’agrégateur se base sur l’ensemble des sondages effectués à date en attribuant des poids différents à chacun d’entre eux, en fonction notamment de la taille de l’échantillon et de la performance historique de l’institut de sondage sur les présidentielles précédentes.

Son fonctionnement est basé sur une méthodologie en 4 grandes étapes :

Le calcul des erreurs associées aux sondages historiques
L’évaluation des erreurs attendues sur les sondages historiques
Le calcul des notes sondeurs
La pondération des résultats des sondages de la présidentielles 2022

Étape 1 : calcul des erreurs associées aux sondages historiques

L’agrégateur a analysé les données de plus de 1200 sondages conduits dans le cadre des élections présidentielles historiques ayant eu lieu entre 1988 et 2017. Il a calculé, pour chacun d’entre eux, l’erreur totale du sondage en la comparant aux résultats finaux de l’élection.

Prenons un exemple : l’institut Bidule a réalisé un sondage en juin 2016 en vue de l’élection présidentielle de 2017, portant sur 3 candidats.

Dans cet exemple, l’agrégateur associerait au sondage une erreur totale de 6 points : 1 + 2 + 3 (les erreurs sont traitées indifféremment qu’elles soient positives ou négatives).

	Candidat 1	Candidat 2	Candidat 3
Résultat sondage	24%	22%	14%
Résultat réel	23% (-1)	20% (-2)	17% (+3)

Étape 2 : évaluation des erreurs attendues sur les sondages historiques

Un sondage peut être vu comme une photo à un moment précis d’une campagne électorale. Les résultats communiqués par le sondeur ne sont pas une prédiction du résultat. Autrement dit, il est normal qu’un sondeur se trompe sur le résultat d’une élection. La date est un des facteurs clés pour expliquer cette erreur : plus le sondage est éloigné de l’élection, plus il est difficile de trouver le bon résultat, puisque l’opinion a encore le temps d’évoluer avec le déroulement de la campagne.

D’autre facteurs rentrent également en compte :

La taille de l’échantillon : plus l’échantillon est grand, plus on réduit les risques d’erreur d’un échantillon non représentatif
Le nombre d’hypothèses testées et le nombre de candidats : un sondeur testant beaucoup d’hypothèses et/ou de candidats sur un sondage risque d’avantage de s’éloigner du scénario réel du scrutin

Ces différents paramètres permettent de calculer une “erreur attendue” pour un sondage donné. L’analyse des 1200 sondages historiques permet à l’agrégateur d’associer une erreur attendue à un sondage donné en fonction de ses caractéristiques. Ainsi, un sondage très éloigné du jour de l’élection aura naturellement une erreur attendue élevée.

L’agrégateur calcule ensuite pour chaque sondage l’écart entre l’erreur du sondage et l’erreur attendue. Dans l’exemple ci-dessous, le sondage n°1 a fait “mieux” que l’erreur attendue, et inversement pour le sondage n°2.

Column 1	Erreur (comme définie précédemment)	Erreur attendue (au vu des caractéristiques de ce sondage, taille échantillon, date, nombre d’hypothèses, etc)	Écart à l’erreur attendue (erreur – erreur attendue)
sondage 1	1,7	2,5	-0,8
sondage 2	1,5	0,3	+1,2

Cet écart à l’erreur attendue peut être vu comme un écart à la performance moyenne des sondeurs sur les sondages similaires (échantillon équivalent, même nombre d’hypothèses et/ou de candidats).

Étape 3 : calcul des notes sondeurs

L’agrégateur attribue ensuite une note à chaque sondeur en fonction de sa performance historique correspondant à la moyenne des écarts à l’erreur attendue sur l’ensemble des sondages réalisés pour les présidentielles précédentes.

Les notes sont converties en une échelle lettrée pour faciliter la lecture.

Depuis le 7 février, l’institut Cluster 17 se voit attribuer la note la plus basse dans l’agrégation, en raison de cet avis publié par la commission des sondages le 4 février 2022. Cet avis pointe notamment du doigt les modalités de constitution des échantillons et le mode de questionnement du panel. Concrètement, cela veut dire que les résultats provenant de Cluster 17 sont fortement pénalisés dans l’agrégation. C’est pourquoi Cluster 17 apparaît avec la note « D » dans le tableau ci-dessus.

Étape 4 : pondération des résultats des sondages de la présidentielle 2022

L’agrégateur va ensuite tracer une ligne de tendance pour chaque candidat à la présidentielle. Cette ligne est tracée avec une moyenne mobile pondérée, ce qui signifie que certains résultats de sondages se voient attribuer plus d’importance que d’autres. Cette pondération repose à 50% sur la taille de l’échantillon, et à 50% sur la note sondeur. Sur le graphique, les points correspondent aux résultats des différents sondages pour chaque candidat, avant agrégation.

Lorsque le notation sondeur repose sur trop peu de sondages, l’agrégateur considère qu’il n’a pas assez d’informations pour pondérer le sondage. C’est alors un poids neutre qui est appliqué à ce point

Cette méthodologie est directement inspirée des travaux de l’excellent FiveThirtyEight sur les élections aux Etats-Unis.

Si vous remarquez une erreur, un sondage manquant, ou avez des idées d’amélioration, n’hésitez pas à nous contacter à contact@datapolitics.fr.