- Élimination des observations défavorablesModification
- Ignorer des caractéristiques importantesModifier
- Questions chargéesModifier
- La surgénéralisationEdit
- Échantillons biaisésModifier
- Mauvaise déclaration ou mauvaise compréhension de l’erreur estiméeEdit
- Faux lien de causalitéModifié
- Preuve de l’hypothèse nulleEdit
- Confusion de la signification statistique avec la signification pratiqueModifier
- Dragage de donnéesModifier
- Manipulation des donnéesModification
- Autres sophismesModifier
- Autres types d’utilisation abusiveModifier
Élimination des observations défavorablesModification
Tout ce qu’une entreprise a à faire pour promouvoir un produit neutre (inutile) est de trouver ou de réaliser, par exemple, 40 études avec un niveau de confiance de 95%. Si le produit est vraiment inutile, cela produirait en moyenne une étude montrant que le produit est bénéfique, une étude montrant qu’il est nocif et trente-huit études non concluantes (38 est 95% de 40). Cette tactique est d’autant plus efficace que le nombre d’études disponibles est élevé. Les organisations qui ne publient pas toutes les études qu’elles réalisent, comme les fabricants de tabac niant le lien entre le tabagisme et le cancer, les groupes de défense antitabac et les médias tentant de prouver un lien entre le tabagisme et diverses affections, ou les vendeurs de pilules miracles, sont susceptibles d’utiliser cette tactique.
Ronald Fisher s’est penché sur cette question dans sa célèbre expérience de dégustation de thé par une dame (tirée de son livre de 1935, The Design of Experiments). En ce qui concerne les expériences répétées, il a déclaré : « Il serait clairement illégitime, et priverait notre calcul de sa base, si les résultats infructueux n’étaient pas tous pris en compte. »
Un autre terme lié à ce concept est cherry picking.
Ignorer des caractéristiques importantesModifier
Les ensembles de données multivariables ont deux caractéristiques/dimensions ou plus. Si trop peu de ces caractéristiques sont choisies pour l’analyse (par exemple, si une seule caractéristique est choisie et qu’une régression linéaire simple est effectuée au lieu d’une régression linéaire multiple), les résultats peuvent être trompeurs. Cela laisse l’analyste vulnérable à l’un des divers paradoxes statistiques, ou dans certains cas (pas tous) à une fausse causalité comme ci-dessous.
Questions chargéesModifier
Les réponses aux enquêtes peuvent souvent être manipulées en formulant la question de manière à induire une prévalence vers une certaine réponse de la part du répondant. Par exemple, lors d’un sondage sur le soutien à une guerre, les questions :
- Soutiens-tu la tentative des États-Unis d’apporter la liberté et la démocratie dans d’autres endroits du monde ?
- Soutiens-tu l’action militaire non provoquée des États-Unis ?
auront probablement pour résultat des données biaisées dans des directions différentes, bien qu’elles sondent toutes deux le soutien à la guerre. Une meilleure façon de formuler la question pourrait être « Soutenez-vous l’action militaire actuelle des Etats-Unis à l’étranger ? ». Une façon encore plus neutre de formuler cette question est « Quelle est votre opinion sur l’action militaire américaine actuelle à l’étranger ? ». Le but doit être que la personne interrogée n’ait aucun moyen de deviner, à partir de la formulation, ce que le questionneur pourrait vouloir entendre.
Une autre façon de procéder est de faire précéder la question d’informations qui soutiennent la réponse « souhaitée ». Par exemple, davantage de personnes répondront probablement « oui » à la question « Compte tenu du fardeau croissant des impôts sur les familles de la classe moyenne, êtes-vous favorable à des réductions de l’impôt sur le revenu ? » qu’à la question « Compte tenu du déficit croissant du budget fédéral et du besoin désespéré de recettes supplémentaires, êtes-vous favorable à des réductions de l’impôt sur le revenu ? »
La bonne formulation des questions peut être très subtile. Les réponses à deux questions peuvent varier radicalement selon l’ordre dans lequel elles sont posées. « Une enquête qui posait des questions sur la ‘propriété d’actions’ a révélé que la plupart des ranchers du Texas possédaient des actions, mais probablement pas du type négocié à la bourse de New York. »
La surgénéralisationEdit
La surgénéralisation est un sophisme qui se produit lorsqu’on affirme qu’une statistique concernant une population particulière est valable parmi les membres d’un groupe pour lequel la population initiale n’est pas un échantillon représentatif.
Par exemple, supposons que l’on observe que 100% des pommes sont rouges en été. L’affirmation « Toutes les pommes sont rouges » serait un exemple de surgénéralisation parce que la statistique originale n’était vraie que pour un sous-ensemble spécifique de pommes (celles de l’été), qui n’est pas censé être représentatif de la population des pommes dans son ensemble.
Un exemple réel du sophisme de surgénéralisation peut être observé comme un artefact des techniques de sondage modernes, qui interdisent d’appeler les téléphones portables pour les sondages politiques par téléphone. Étant donné que les jeunes sont plus susceptibles que d’autres groupes démographiques de ne pas avoir de téléphone conventionnel « fixe », un sondage téléphonique qui interroge exclusivement les personnes qui appellent des téléphones fixes peut entraîner un sous-échantillonnage des opinions des jeunes, si aucune autre mesure n’est prise pour tenir compte de cette distorsion de l’échantillonnage. Ainsi, un sondage examinant les préférences de vote des jeunes en utilisant cette technique peut ne pas être une représentation parfaitement exacte des véritables préférences de vote des jeunes dans leur ensemble sans sur-généralisation, parce que l’échantillon utilisé exclut les jeunes qui ne portent que des téléphones portables, qui peuvent ou non avoir des préférences de vote qui diffèrent du reste de la population.
La sur-généralisation se produit souvent lorsque l’information est transmise par des sources non techniques, en particulier les médias de masse.
Échantillons biaisésModifier
Les scientifiques ont appris à grands frais que la collecte de bonnes données expérimentales pour l’analyse statistique est difficile. Exemple : L’effet placebo (l’esprit sur le corps) est très puissant. 100% des sujets ont développé une éruption cutanée lorsqu’ils ont été exposés à une substance inerte faussement appelée sumac vénéneux, alors que peu d’entre eux ont développé une éruption cutanée à un objet « inoffensif » qui était en réalité du sumac vénéneux. Les chercheurs combattent cet effet par des expériences comparatives randomisées en double aveugle. Les statisticiens s’inquiètent généralement plus de la validité des données que de l’analyse. Cela se reflète dans un domaine d’étude au sein des statistiques connu sous le nom de plan d’expériences.
Les sondeurs ont appris à grands frais qu’il est difficile de recueillir de bonnes données d’enquête pour l’analyse statistique. L’effet sélectif des téléphones cellulaires sur la collecte des données (discuté dans la section sur la surgénéralisation) est un exemple potentiel ; Si les jeunes ayant un téléphone traditionnel ne sont pas représentatifs, l’échantillon peut être biaisé. Les enquêtes par sondage comportent de nombreux pièges et nécessitent une grande prudence dans leur exécution. Une enquête a nécessité près de 3 000 appels téléphoniques pour obtenir 1 000 réponses. L’échantillon aléatoire simple de la population « n’est pas simple et peut ne pas être aléatoire »
Mauvaise déclaration ou mauvaise compréhension de l’erreur estiméeEdit
Si une équipe de recherche veut savoir comment 300 millions de personnes se sentent sur un certain sujet, il serait peu pratique de les interroger toutes. Cependant, si l’équipe choisit un échantillon aléatoire d’environ 1000 personnes, elle peut être assez certaine que les résultats donnés par ce groupe sont représentatifs de ce que le plus grand groupe aurait dit si on leur avait tous posé la question.
Cette confiance peut en fait être quantifiée par le théorème central limite et d’autres résultats mathématiques. La confiance est exprimée comme une probabilité que le vrai résultat (pour le groupe plus important) se situe dans une certaine fourchette de l’estimation (le chiffre pour le groupe plus petit). C’est le chiffre « plus ou moins » souvent cité pour les enquêtes statistiques. La partie probabilité du niveau de confiance n’est généralement pas mentionnée ; si c’est le cas, on suppose qu’il s’agit d’un chiffre standard comme 95 %.
Les deux chiffres sont liés. Si une enquête a une erreur estimée de ±5% avec un niveau de confiance de 95%, elle a également une erreur estimée de ±6,6% avec un niveau de confiance de 99%. ± x {\displaystyle x}
% à 95% de confiance est toujours ± 1,32 x {\displaystyle 1,32x}.
% à 99% de confiance pour une population normalement distribuée.
Plus l’erreur estimée est petite, plus l’échantillon requis est grand, à un niveau de confiance donné.
à 95,4% de confiance:
±1% nécessiterait 10 000 personnes.
±2% nécessiterait 2 500 personnes.
±3% nécessiterait 1 111 personnes.
±4% nécessiterait 625 personnes.
±5% nécessiterait 400 personnes.
±10% nécessiterait 100 personnes.
±20% nécessiterait 25 personnes.
±25% nécessiterait 16 personnes.
±50% nécessiterait 4 personnes.
Les gens peuvent supposer, parce que le chiffre de confiance est omis, qu’il y a une certitude de 100% que le vrai résultat est dans l’erreur estimée. Ceci n’est pas mathématiquement correct.
Beaucoup de gens peuvent ne pas réaliser que le caractère aléatoire de l’échantillon est très important. En pratique, de nombreux sondages d’opinion sont réalisés par téléphone, ce qui fausse l’échantillon de plusieurs façons, notamment en excluant les personnes qui n’ont pas de téléphone, en favorisant l’inclusion des personnes qui ont plus d’un téléphone, en favorisant l’inclusion des personnes qui sont prêtes à participer à un sondage téléphonique par rapport à celles qui refusent, etc. L’échantillonnage non aléatoire rend l’erreur estimée peu fiable.
D’autre part, les gens peuvent considérer que les statistiques sont intrinsèquement peu fiables parce que tout le monde n’est pas appelé, ou parce qu’eux-mêmes ne sont jamais sondés. Les gens peuvent penser qu’il est impossible d’obtenir des données sur l’opinion de dizaines de millions de personnes en sondant seulement quelques milliers. C’est également inexact. Un sondage avec un échantillonnage parfaitement impartial et des réponses véridiques a une marge d’erreur déterminée mathématiquement, qui ne dépend que du nombre de personnes interrogées.
Cependant, souvent, une seule marge d’erreur est rapportée pour un sondage. Lorsque les résultats sont rapportés pour des sous-groupes de population, une marge d’erreur plus importante s’applique, mais cela peut ne pas être précisé. Par exemple, une enquête portant sur 1000 personnes peut contenir 100 personnes appartenant à un certain groupe ethnique ou économique. Les résultats concernant ce groupe seront beaucoup moins fiables que les résultats concernant l’ensemble de la population. Si la marge d’erreur pour l’échantillon complet était de 4%, disons, alors la marge d’erreur pour un tel sous-groupe pourrait être d’environ 13%.
Il y a aussi beaucoup d’autres problèmes de mesure dans les enquêtes de population.
Les problèmes mentionnés ci-dessus s’appliquent à toutes les expériences statistiques, pas seulement aux enquêtes de population.
Faux lien de causalitéModifié
Lorsqu’un test statistique montre une corrélation entre A et B, il y a généralement six possibilités :
- A cause B.
- B cause A.
- A et B se causent tous deux partiellement l’un l’autre.
- A et B sont tous deux causés par un troisième facteur, C.
- B est causé par C qui est corrélé à A.
- La corrélation observée est due purement au hasard.
La sixième possibilité peut être quantifiée par des tests statistiques qui peuvent calculer la probabilité que la corrélation observée soit aussi grande que par hasard si, en fait, il n’y a pas de relation entre les variables. Cependant, même si cette possibilité a une faible probabilité, il reste les cinq autres.
Si le nombre de personnes qui achètent des glaces à la plage est statistiquement lié au nombre de personnes qui se noient à la plage, alors personne ne prétendrait que les glaces provoquent les noyades, car il est évident que ce n’est pas le cas. (Dans ce cas, la noyade et l’achat de crème glacée sont clairement liés par un troisième facteur : le nombre de personnes à la plage).
Ce sophisme peut être utilisé, par exemple, pour prouver que l’exposition à un produit chimique provoque le cancer. Remplacez « nombre de personnes achetant des glaces » par « nombre de personnes exposées au produit chimique X », et « nombre de personnes qui se noient » par « nombre de personnes qui ont un cancer », et beaucoup de gens vous croiront. Dans une telle situation, il peut y avoir une corrélation statistique même s’il n’y a pas d’effet réel. Par exemple, si l’on a l’impression qu’un site chimique est « dangereux » (même s’il ne l’est pas vraiment), la valeur des propriétés dans cette zone diminuera, ce qui incitera davantage de familles à faible revenu à s’y installer. Si les familles à faible revenu sont plus susceptibles de contracter un cancer que les familles à revenu élevé (en raison d’une alimentation plus pauvre, par exemple, ou d’un accès moindre aux soins médicaux), les taux de cancer augmenteront, même si le produit chimique lui-même n’est pas dangereux. On pense que c’est exactement ce qui s’est passé avec certaines des premières études montrant un lien entre les CEM (champs électromagnétiques) des lignes électriques et le cancer.
Dans les études bien conçues, l’effet de fausse causalité peut être éliminé en assignant certaines personnes dans un « groupe de traitement » et certaines personnes dans un « groupe de contrôle » au hasard, et en donnant au groupe de traitement le traitement et en ne donnant pas au groupe de contrôle le traitement. Dans l’exemple ci-dessus, un chercheur pourrait exposer un groupe de personnes au produit chimique X et laisser un second groupe non exposé. Si le premier groupe présente des taux de cancer plus élevés, le chercheur sait qu’aucun facteur tiers n’a influencé l’exposition d’une personne, car il a contrôlé qui a été exposé ou non, et il a réparti les personnes entre les groupes exposés et non exposés de manière aléatoire. Cependant, dans de nombreuses applications, réaliser une expérience de cette manière est soit d’un coût prohibitif, soit infaisable, soit contraire à l’éthique, soit illégal, soit carrément impossible. Par exemple, il est très peu probable qu’un IRB accepte une expérience consistant à exposer intentionnellement des personnes à une substance dangereuse afin d’en tester la toxicité. Les implications éthiques évidentes de ces types d’expériences limitent la capacité des chercheurs à tester empiriquement la causalité.
Preuve de l’hypothèse nulleEdit
Dans un test statistique, l’hypothèse nulle ( H 0 {\displaystyle H_{0}}
) est considérée comme valide jusqu’à ce que suffisamment de données prouvent qu’elle est fausse. Alors H 0 {\displaystyle H_{0}}
est rejetée et l’hypothèse alternative ( H A {\displaystyle H_{A}}
) est considérée comme prouvée comme correcte. Par hasard, cela peut arriver, bien que H 0 {\displaystyle H_{0}}
soit vrai, avec une probabilité notée α {\displaystyle \alpha }.
(le niveau de signification). Ceci peut être comparé au processus judiciaire, où l’accusé est considéré comme innocent ( H 0 {\displaystyle H_{0}}
) jusqu’à ce que sa culpabilité soit prouvée ( H A {\displaystyle H_{A}}
) au-delà du doute raisonnable ( α {\displaystyle \alpha }
).
Mais si les données ne nous donnent pas assez de preuves pour rejeter que H 0 {\displaystyle H_{0}}.
, cela ne prouve pas automatiquement que H 0 {\displaystyle H_{0}}.
est correct. Si, par exemple, un producteur de tabac souhaite démontrer que ses produits sont sûrs, il peut facilement effectuer un test avec un petit échantillon de fumeurs par rapport à un petit échantillon de non-fumeurs. Il est peu probable que l’un d’entre eux développe un cancer du poumon (et même si c’est le cas, la différence entre les groupes doit être très grande pour rejeter H 0 {\displaystyle H_{0}}.
). Par conséquent, il est probable – même lorsque fumer est dangereux – que notre test ne rejettera pas H 0 {\displaystyle H_{0}}
. Si H 0 {\displaystyle H_{0}}
est acceptée, il ne s’ensuit pas automatiquement que le tabagisme est prouvé inoffensif. Le test n’a pas une puissance suffisante pour rejeter H 0 {\displaystyle H_{0}}
, donc le test est inutile et la valeur de la « preuve » de H 0 {\displaystyle H_{0}}
est également nulle.
Ceci peut – en utilisant l’analogue judiciaire ci-dessus – être comparé au défendeur réellement coupable qui est libéré juste parce que la preuve n’est pas suffisante pour un verdict de culpabilité. Cela ne prouve pas l’innocence du défendeur, mais seulement qu’il n’y a pas assez de preuves pour un verdict de culpabilité.
« …l’hypothèse nulle n’est jamais prouvée ou établie, mais elle est éventuellement réfutée, au cours de l’expérimentation. On peut dire que chaque expérience n’existe que dans le but de donner aux faits une chance de réfuter l’hypothèse nulle. » (Fisher dans The Design of Experiments) De nombreuses raisons de confusion existent, y compris l’utilisation de la logique de la double négation et la terminologie résultant de la fusion du « test de signification » de Fisher (où l’hypothèse nulle n’est jamais acceptée) avec le « test d’hypothèse » (où une certaine hypothèse est toujours acceptée).
Confusion de la signification statistique avec la signification pratiqueModifier
La signification statistique est une mesure de probabilité ; la signification pratique est une mesure d’effet. Un remède contre la calvitie est statistiquement significatif si un duvet de pêche clairsemé recouvre habituellement le cuir chevelu auparavant nu. Le remède est significatif sur le plan pratique lorsqu’il n’est plus nécessaire de porter un chapeau par temps froid et que le coiffeur demande combien il faut enlever du haut du chapeau. Les chauves veulent un remède qui soit à la fois statistiquement et pratiquement significatif ; il fonctionnera probablement et, s’il fonctionne, il aura un effet poilu important. Les publications scientifiques n’exigent souvent que la signification statistique. Cela a conduit à des plaintes (pour les 50 dernières années) que les tests de signification statistique sont une mauvaise utilisation des statistiques.
Dragage de donnéesModifier
Le dragage de données est un abus de l’exploration de données. Dans la drague de données, de grandes compilations de données sont examinées afin de trouver une corrélation, sans choix prédéfini d’une hypothèse à tester. Étant donné que l’intervalle de confiance requis pour établir une relation entre deux paramètres est généralement fixé à 95 % (ce qui signifie qu’il y a 95 % de chances que la relation observée ne soit pas due au hasard), il y a donc 5 % de chances de trouver une corrélation entre deux ensembles de variables totalement aléatoires. Étant donné que les efforts de dragage de données examinent généralement de grands ensembles de données avec de nombreuses variables, et donc un nombre encore plus grand de paires de variables, des résultats fallacieux mais apparemment statistiquement significatifs sont presque certains d’être trouvés par toute étude de ce type.
Notez que le dragage de données est un moyen valide de trouver une hypothèse possible, mais cette hypothèse doit ensuite être testée avec des données qui n’ont pas été utilisées dans le dragage original. Le mauvais usage intervient lorsque cette hypothèse est déclarée comme un fait sans autre validation.
« Vous ne pouvez pas légitimement tester une hypothèse sur les mêmes données qui ont d’abord suggéré cette hypothèse. Le remède est clair. Une fois que vous avez une hypothèse, concevez une étude pour rechercher spécifiquement l’effet que vous pensez maintenant être présent. Si le résultat de ce test est statistiquement significatif, vous disposez enfin de véritables preuves. »
Manipulation des donnéesModification
Informellement appelée « truquer les données », cette pratique inclut le rapport sélectif (voir aussi biais de publication) et même simplement la fabrication de fausses données.
Les exemples de rapport sélectif abondent. Les exemples les plus faciles et les plus courants consistent à choisir un groupe de résultats qui suivent un modèle conforme à l’hypothèse privilégiée tout en ignorant d’autres résultats ou « séries de données » qui contredisent l’hypothèse.
Les chercheurs en psychologie ont longtemps contesté les études montrant des personnes ayant des capacités de perception extrasensorielle. Les critiques accusent les partisans de la perception extrasensorielle de ne publier que les expériences ayant des résultats positifs et de mettre au placard celles qui présentent des résultats négatifs. Un « résultat positif » est un essai (ou une série de données) dans lequel le sujet devine une carte cachée, etc. à une fréquence beaucoup plus élevée que le hasard.
Les scientifiques, en général, mettent en doute la validité des résultats d’une étude qui ne peuvent pas être reproduits par d’autres chercheurs. Cependant, certains scientifiques refusent de publier leurs données et leurs méthodes.
La manipulation des données est un problème/considération sérieux dans la plus honnête des analyses statistiques. Les valeurs aberrantes, les données manquantes et la non-normalité peuvent toutes affecter négativement la validité de l’analyse statistique. Il convient d’étudier les données et de réparer les problèmes réels avant de commencer l’analyse. « Dans tout diagramme de dispersion, il y aura des points plus ou moins détachés de la partie principale du nuage : ces points ne doivent être rejetés que pour cause. »
Autres sophismesModifier
La pseudo-réplication est une erreur technique associée à l’analyse de la variance. La complexité cache le fait que l’analyse statistique est tentée sur un seul échantillon (N=1). Pour ce cas dégénéré, la variance ne peut pas être calculée (division par zéro). Un (N=1) donnera toujours au chercheur la corrélation statistique la plus élevée entre le biais d’intention et les résultats réels.
Le sophisme du joueur suppose qu’un événement pour lequel une probabilité future peut être mesurée avait la même probabilité de se produire une fois qu’il s’est déjà produit. Ainsi, si quelqu’un a déjà lancé 9 pièces de monnaie et que chacune d’entre elles est tombée face, les gens ont tendance à supposer que la probabilité qu’un dixième lancer soit également face est de 1023 contre 1 (ce qui était le cas avant que la première pièce ne soit lancée), alors qu’en fait, la probabilité que la dixième soit face est de 50% (en supposant que la pièce ne soit pas biaisée).
Le sophisme du procureur a conduit, au Royaume-Uni, à ce que Sally Clark soit condamnée à tort pour le meurtre de ses deux fils. Au tribunal, la faible probabilité statistique (1 sur 73 millions) que les deux enfants d’une femme meurent du syndrome de mort subite du nourrisson, donnée par le professeur Sir Roy Meadow, a été interprétée à tort comme suggérant une faible probabilité de son innocence. Même si la probabilité d’une double mort subite du nourrisson, remise en cause ultérieurement par la Royal Statistical Society, était correcte, il convient d’évaluer toutes les explications possibles les unes par rapport aux autres pour déterminer celle qui a le plus probablement causé la mort inexpliquée des deux enfants. Les données disponibles suggèrent que les chances seraient en faveur d’un double SMSN par rapport à un double homicide par un facteur de neuf « . La condamnation de Sally Clark a finalement été annulée.
Le sophisme ludique. Les probabilités sont basées sur des modèles simples qui ignorent les possibilités réelles (bien que lointaines). Les joueurs de poker n’envisagent pas qu’un adversaire puisse tirer un pistolet plutôt qu’une carte. Les assurés (et les gouvernements) supposent que les assureurs resteront solvables, mais voir AIG et le risque systémique.
Autres types d’utilisation abusiveModifier
Autres utilisations abusives comprennent la comparaison de pommes et d’oranges, l’utilisation de la mauvaise moyenne, la régression vers la moyenne et l’expression parapluie garbage in, garbage out. Certaines statistiques ne sont tout simplement pas pertinentes pour une question.
Le quatuor d’Anscombe est un ensemble de données inventé qui illustre les lacunes des statistiques descriptives simples (et la valeur du tracé des données avant l’analyse numérique).