- Udeladelse af ugunstige observationerRediger
- Ignorering af vigtige funktionerRediger
- Indlæste spørgsmålRediger
- OvergeneraliseringRediger
- Skævvredne stikprøverRediger
- Fejlrapportering eller misforståelse af den estimerede fejlRediger
- Falsk kausalitetRediger
- Bevis for nulhypotesenRediger
- Forveksling af statistisk signifikans med praktisk signifikansRediger
- DatamodningRediger
- DatamanipulationRediger
- Andre fejlslutningerRediger
- Andre typer misbrugRediger
Udeladelse af ugunstige observationerRediger
Det eneste, en virksomhed behøver at gøre for at promovere et neutralt (ubrugeligt) produkt, er at finde eller gennemføre f.eks. 40 undersøgelser med et konfidensniveau på 95 %. Hvis produktet virkelig er ubrugeligt, vil det i gennemsnit give én undersøgelse, der viser, at produktet er gavnligt, én undersøgelse, der viser, at det er skadeligt, og 38 ufyldestgørende undersøgelser (38 er 95 % af 40). Denne taktik bliver mere effektiv, jo flere undersøgelser der er til rådighed. Organisationer, der ikke offentliggør alle de undersøgelser, de gennemfører, som f.eks. tobaksfirmaer, der benægter en forbindelse mellem rygning og kræft, antirygerforeningsgrupper og medier, der forsøger at bevise en forbindelse mellem rygning og forskellige lidelser, eller sælgere af mirakelpiller, vil sandsynligvis benytte denne taktik.
Ronald Fisher overvejede dette spørgsmål i sit berømte eksempeleksperiment med lady tasting tea (fra hans bog fra 1935, The Design of Experiments). Med hensyn til gentagne eksperimenter sagde han: “Det ville helt klart være illegitimt og ville fratage vores beregning dens grundlag, hvis de mislykkede resultater ikke alle blev taget med i betragtning.”
Et andet begreb relateret til dette begreb er cherry picking.
Ignorering af vigtige funktionerRediger
Multivariable datasæt har to eller flere funktioner/dimensioner. Hvis der vælges for få af disse funktioner til analyse (f.eks. hvis der kun vælges én funktion, og der udføres simpel lineær regression i stedet for multipel lineær regression), kan resultaterne være misvisende. Dette efterlader analytikeren sårbar over for et af forskellige statistiske paradokser, eller i nogle (ikke alle) tilfælde falsk kausalitet som nedenfor.
Indlæste spørgsmålRediger
Svarene i undersøgelser kan ofte manipuleres ved at formulere spørgsmålet på en sådan måde, at det fremkalder en prævalens i retning af et bestemt svar hos respondenten. Ved en meningsmåling om støtte til en krig vil spørgsmålene:
- Støtter du USA’s forsøg på at bringe frihed og demokrati til andre steder i verden?
- Støtter du USA’s uprovokerede militære aktion?
vil sandsynligvis resultere i data, der er skævt fordelt i forskellige retninger, selv om der begge er tale om en meningsmåling om støtte til krigen. En bedre måde at formulere spørgsmålet på kunne være “Støtter du den nuværende amerikanske militæraktion i udlandet?”. En endnu mere næsten neutral måde at stille spørgsmålet på er: “Hvad er din holdning til USA’s nuværende militære aktion i udlandet?” Pointen bør være, at den person, der bliver spurgt, ikke på nogen måde kan gætte ud fra formuleringen, hvad spørgeren måske ønsker at høre.
En anden måde at gøre dette på er at lade spørgsmålet blive indledt med oplysninger, der støtter det “ønskede” svar. F.eks. vil flere mennesker sandsynligvis svare “ja” til spørgsmålet “I betragtning af den stigende skattebyrde for middelklassefamilier, støtter du så nedskæringer i indkomstskatten?” end til spørgsmålet “I betragtning af det stigende underskud på det føderale budget og det desperate behov for flere indtægter, støtter du så nedskæringer i indkomstskatten?”
Den korrekte formulering af spørgsmål kan være meget subtil. Svarene på to spørgsmål kan variere dramatisk alt efter, i hvilken rækkefølge de stilles. “En undersøgelse, der spurgte om ‘ejerskab af aktier’, viste, at de fleste Texas-farmere ejede aktier, men sandsynligvis ikke af den slags, der handles på børsen i New York.”
OvergeneraliseringRediger
Overgeneralisering er en fejlslutning, der opstår, når en statistik om en bestemt population hævdes at gælde blandt medlemmer af en gruppe, for hvilken den oprindelige population ikke er et repræsentativt udsnit.
For eksempel, antag at 100 % af æblerne observeres at være røde om sommeren. Påstanden “Alle æbler er røde” ville være et eksempel på overgeneralisering, fordi den oprindelige statistik kun var sand for en bestemt delmængde af æbler (dem om sommeren), som ikke forventes at være repræsentativ for populationen af æbler som helhed.
Et eksempel fra den virkelige verden på overgeneraliseringsfejlslutningen kan observeres som et artefakt i moderne meningsmålingsteknikker, som forbyder at ringe til mobiltelefoner til politiske meningsmålinger over telefonen. Da unge mennesker er mere tilbøjelige end andre demografiske grupper til at mangle en konventionel “fastnet-telefon”, kan en telefonmåling, hvor man udelukkende spørger respondenter, der ringer til fastnettelefoner, medføre, at meningsmålingens resultater undervurderer de unges synspunkter, hvis der ikke træffes andre foranstaltninger for at tage højde for denne skævhed i stikprøveudtagningen. Således kan en meningsmåling, der undersøger unges stemmepræferencer ved hjælp af denne teknik, ikke være en helt nøjagtig repræsentation af unges sande stemmepræferencer som helhed uden at overgeneralisere, fordi den anvendte stikprøve udelukker unge, der kun bærer mobiltelefoner, som måske eller måske ikke har stemmepræferencer, der adskiller sig fra resten af befolkningen.
Overgeneralisering sker ofte, når information videregives gennem ikke-tekniske kilder, især massemedier.
Skævvredne stikprøverRediger
Videnskabsfolk har med store omkostninger lært, at det er vanskeligt at indsamle gode eksperimentelle data til statistisk analyse. Eksempel: Placeboeffekten (sind over krop) er meget kraftig. 100 % af forsøgspersonerne fik udslæt, når de blev udsat for et inaktivt stof, der fejlagtigt blev kaldt for giftig efeu, mens kun få fik udslæt ved en “harmløs” genstand, der i virkeligheden var giftig efeu. Forskerne bekæmper denne effekt ved hjælp af dobbeltblindede, randomiserede, sammenlignende eksperimenter. Statistikere bekymrer sig typisk mere om dataenes validitet end om analysen. Dette afspejles i et studieområde inden for statistik, der er kendt som design af eksperimenter.
Pollers har med store omkostninger lært, at det er vanskeligt at indsamle gode undersøgelsesdata til statistisk analyse. Den selektive virkning af mobiltelefoner på dataindsamlingen (omtalt i afsnittet om overgeneralisering) er et muligt eksempel; hvis unge mennesker med traditionelle telefoner ikke er repræsentative, kan stikprøven være skævvredet. Stikprøveundersøgelser har mange faldgruber og kræver stor omhu ved gennemførelsen. En indsats krævede næsten 3 000 telefonopkald for at få 1 000 svar. Den simple tilfældige stikprøve af befolkningen “er ikke enkel og er måske ikke tilfældig.”
Fejlrapportering eller misforståelse af den estimerede fejlRediger
Hvis et forskerhold ønsker at vide, hvordan 300 millioner mennesker har det med et bestemt emne, ville det være upraktisk at spørge dem alle. Men hvis holdet udvælger en tilfældig stikprøve på ca. 1000 personer, kan de være ret sikre på, at de resultater, som denne gruppe giver, er repræsentative for, hvad den større gruppe ville have sagt, hvis de alle var blevet spurgt.
Denne tillid kan faktisk kvantificeres ved hjælp af det centrale grænsesæt og andre matematiske resultater. Tillid udtrykkes som en sandsynlighed for, at det sande resultat (for den større gruppe) ligger inden for et bestemt interval af estimatet (tallet for den mindre gruppe). Dette er det “plus eller minus”-tal, der ofte angives i forbindelse med statistiske undersøgelser. Sandsynlighedsdelen af konfidensniveauet nævnes normalt ikke; hvis det er tilfældet, antages det at være et standardtal som f.eks. 95 %.
De to tal er relateret til hinanden. Hvis en undersøgelse har en anslået fejl på ±5% ved 95% konfidens, har den også en anslået fejl på ±6,6% ved 99% konfidens. ± x {\displaystyle x}
% ved 95% konfidens er altid ± 1,32 x {\displaystyle 1,32x}
% ved 99 % konfidens for en normalfordelt population.
Jo mindre den estimerede fejl er, jo større er den nødvendige stikprøve ved et givet konfidensniveau.
ved 95,4 % konfidens:
± 1 % vil kræve 10.000 personer.
± 2 % vil kræve 2.500 personer.
± 3 % vil kræve 1.111 personer.
± 4 % vil kræve 625 personer.
± 5 % vil kræve 400 personer.
± 10 % vil kræve 100 personer.
±20% ville kræve 25 personer.
±25% ville kræve 16 personer.
±50% ville kræve 4 personer.
Da tillidstallet er udeladt, kan folk antage, at der er 100 % sikkerhed for, at det sande resultat ligger inden for den estimerede fejl, fordi tillidstallet ikke er angivet. Dette er ikke matematisk korrekt.
Mange mennesker er måske ikke klar over, at tilfældigheden i stikprøven er meget vigtig. I praksis gennemføres mange meningsmålinger pr. telefon, hvilket forvrænger stikprøven på flere måder, herunder udelukkelse af personer, der ikke har telefoner, favorisering af personer, der har mere end én telefon, favorisering af personer, der er villige til at deltage i en telefonundersøgelse, frem for personer, der nægter at deltage, osv. Ikke tilfældig stikprøveudtagning gør den estimerede fejl upålidelig.
På den anden side kan folk mene, at statistikker i sagens natur er upålidelige, fordi ikke alle bliver ringet op, eller fordi de selv aldrig bliver spurgt. Folk kan mene, at det er umuligt at få data om holdningen hos snesevis af millioner af mennesker ved blot at udspørge nogle få tusinde. Dette er også unøjagtigt. En meningsmåling med perfekt uvildig stikprøveudtagning og sandfærdige svar har en matematisk bestemt fejlmargin, som kun afhænger af antallet af adspurgte personer.
Ofte rapporteres der imidlertid kun én fejlmargin for en undersøgelse. Når resultaterne rapporteres for befolkningsundergrupper, gælder en større fejlmargin, men det fremgår måske ikke tydeligt. F.eks. kan en undersøgelse med 1000 personer indeholde 100 personer fra en bestemt etnisk eller økonomisk gruppe. De resultater, der fokuserer på denne gruppe, vil være langt mindre pålidelige end resultaterne for den samlede befolkning. Hvis fejlmargenen for hele stikprøven var f.eks. 4 %, kan fejlmargenen for en sådan undergruppe være omkring 13 %.
Der er også mange andre måleproblemer i befolkningsundersøgelser.
De ovenfor nævnte problemer gælder for alle statistiske eksperimenter, ikke kun befolkningsundersøgelser.
Falsk kausalitetRediger
Når en statistisk test viser en korrelation mellem A og B, er der normalt seks muligheder:
- A forårsager B.
- B forårsager A.
- A og B forårsager begge delvist hinanden.
- A og B er begge forårsaget af en tredje faktor, C.
- B er forårsaget af C, som er korreleret med A.
- Den observerede korrelation skyldes rent tilfældigt.
Den sjette mulighed kan kvantificeres ved hjælp af statistiske test, der kan beregne sandsynligheden for, at den observerede korrelation ville være så stor, som den er rent tilfældigt, hvis der i virkeligheden ikke er nogen sammenhæng mellem de to variabler. Men selv om denne mulighed har en lille sandsynlighed, er der stadig de fem andre.
Hvis antallet af mennesker, der køber is på stranden, er statistisk relateret til antallet af mennesker, der drukner på stranden, så ville ingen hævde, at is forårsager drukneulykker, fordi det er indlysende, at det ikke er sådan. (I dette tilfælde er både drukning og køb af is klart relateret af en tredje faktor: antallet af mennesker på stranden).
Denne fejlslutning kan f.eks. bruges til at bevise, at udsættelse for et kemikalie forårsager kræft. Udskift “antallet af mennesker, der køber is” med “antallet af mennesker, der udsættes for kemikalie X”, og “antallet af mennesker, der drukner” med “antallet af mennesker, der får kræft”, og mange mennesker vil tro dig. I en sådan situation kan der være en statistisk korrelation, selv om der ikke er nogen reel virkning. Hvis der f.eks. er en opfattelse af, at et kemisk område er “farligt” (selv om det i virkeligheden ikke er det), vil ejendomsværdien i området falde, hvilket vil få flere lavindkomstfamilier til at flytte til området. Hvis lavindkomstfamilier er mere tilbøjelige til at få kræft end højindkomstfamilier (f.eks. på grund af dårligere kost eller mindre adgang til lægehjælp), vil antallet af kræfttilfælde stige, selv om kemikaliet i sig selv ikke er farligt. Det menes, at det er præcis, hvad der skete med nogle af de tidlige undersøgelser, der viste en sammenhæng mellem EMF (elektromagnetiske felter) fra højspændingsledninger og kræft.
I veltilrettelagte undersøgelser kan effekten af falsk kausalitet elimineres ved at inddele nogle mennesker i en “behandlingsgruppe” og nogle mennesker i en “kontrolgruppe” tilfældigt og give behandlingsgruppen behandlingen og ikke give kontrolgruppen behandlingen. I ovenstående eksempel kan en forsker udsætte en gruppe mennesker for kemikalie X og lade en anden gruppe være uudsat. Hvis den første gruppe havde højere kræftrater, ved forskeren, at der ikke er nogen tredje faktor, der påvirkede, om en person blev udsat, fordi han kontrollerede, hvem der blev udsat eller ikke blev udsat, og han fordelte folk tilfældigt i de udsatte og ikke-udsatte grupper. I mange tilfælde er det imidlertid enten uoverkommeligt dyrt, uigennemførligt, uetisk, ulovligt eller helt umuligt at gennemføre et eksperiment på denne måde. Det er f.eks. højst usandsynligt, at et IRB ville godkende et forsøg, der indebærer, at mennesker bevidst udsættes for et farligt stof for at teste dets giftighed. De åbenlyse etiske konsekvenser af sådanne typer eksperimenter begrænser forskernes mulighed for empirisk at teste årsagssammenhænge.
Bevis for nulhypotesenRediger
I en statistisk test anses nulhypotesen ( H 0 {\displaystyle H_{0}}}
) for at være gyldig, indtil tilstrækkeligt med data beviser, at den er forkert. Så H 0 {\displaystyle H_{0}}
forkastes, og den alternative hypotese ( H A {\displaystyle H_{A}}}
) anses for at være bevist som korrekt. Tilfældigt kan dette ske, selv om H 0 {\displaystyle H_{0}}
er sandt, med en sandsynlighed betegnet α {\displaystyle \alpha }
(signifikansniveauet). Dette kan sammenlignes med retsprocessen, hvor den anklagede betragtes som uskyldig ( H 0 {\displaystyle H_{0}}
), indtil det er bevist, at han er skyldig ( H A {\displaystyle H_{A}}}
) uden for enhver rimelig tvivl ( α {\displaystyle \alpha }
).
Men hvis data ikke giver os tilstrækkeligt bevis til at afvise, at H 0 {\displaystyle H_{0}}
, er det ikke automatisk et bevis for, at H 0 {\displaystyle H_{0}}
er korrekt. Hvis f.eks. en tobaksproducent ønsker at påvise, at dens produkter er sikre, kan den let foretage en test med en lille stikprøve af rygere i forhold til en lille stikprøve af ikke-rygere. Det er usandsynligt, at nogen af dem vil udvikle lungekræft (og selv hvis de gør, skal forskellen mellem grupperne være meget stor for at afvise H 0 {\displaystyle H_{0}}
). Derfor er det sandsynligt – selv når rygning er farligt – at vores test ikke vil forkaste H 0 {\displaystyle H_{0}}
. Hvis H 0 {\displaystyle H_{0}}
accepteres, følger det ikke automatisk, at det er bevist, at rygning er ufarligt. Testen har utilstrækkelig effekt til at afvise H 0 {\displaystyle H_{0}}
, så testen er ubrugelig, og værdien af “beviset” for H 0 {\displaystyle H_{0}}
er også nul.
Dette kan – ved hjælp af den juridiske analogi ovenfor – sammenlignes med den virkelig skyldige tiltalte, der løslades, blot fordi beviserne ikke er tilstrækkelige til en skyldig dom. Dette beviser ikke den anklagedes uskyld, men kun at der ikke er beviser nok til en skyldig dom.
“…nulhypotesen bliver aldrig bevist eller fastslået, men den bliver muligvis modbevist, i løbet af et eksperiment. Ethvert eksperiment kan siges kun at eksistere for at give kendsgerningerne en chance for at modbevise nulhypotesen.” (Fisher i The Design of Experiments) Der findes mange grunde til forvirring, herunder brugen af dobbelt negativ logik og terminologi som følge af Fisher’s sammensmeltning af “signifikanstestning” (hvor nulhypotesen aldrig accepteres) med “hypotesetestning” (hvor en eller anden hypotese altid accepteres).
Forveksling af statistisk signifikans med praktisk signifikansRediger
Statistisk signifikans er et mål for sandsynlighed; praktisk signifikans er et mål for effekt. En kur mod skaldethed er statistisk signifikant, hvis en sparsom fersken-fuzz normalt dækker den tidligere nøgne hovedbund. Kuren er praktisk signifikant, når en hat ikke længere er nødvendig i koldt vejr, og frisøren spørger, hvor meget han skal tage af toppen. De skaldede ønsker en kur, der både er statistisk og praktisk signifikant; den vil sandsynligvis virke, og hvis den gør det, vil den have en stor hårig effekt. Videnskabelig offentliggørelse kræver ofte kun statistisk signifikans. Dette har ført til klager (i de sidste 50 år) over, at statistisk signifikanstest er et misbrug af statistik.
DatamodningRediger
Data dredging er et misbrug af data mining. Ved data-dredging undersøges store samlinger af data med henblik på at finde en korrelation, uden at der på forhånd er valgt en hypotese, der skal testes. Da det nødvendige konfidensinterval for at fastslå en sammenhæng mellem to parametre normalt vælges til 95 % (hvilket betyder, at der er 95 % chance for, at den observerede sammenhæng ikke skyldes tilfældigheder), er der således 5 % chance for at finde en korrelation mellem to sæt fuldstændig tilfældige variabler. Da data-dredging-indsatser typisk undersøger store datasæt med mange variabler og dermed et endnu større antal par af variabler, er det næsten sikkert, at der vil blive fundet falske, men tilsyneladende statistisk signifikante resultater ved en sådan undersøgelse.
Bemærk, at data-dredging er en gyldig måde at finde en mulig hypotese på, men at hypotesen derefter skal testes med data, der ikke blev brugt i den oprindelige mudderkastning. Misbruget opstår, når denne hypotese erklæres for en kendsgerning uden yderligere validering.
“Man kan ikke legitimt teste en hypotese på de samme data, som først foreslog hypotesen. Løsningen er klar. Når du har en hypotese, skal du udforme en undersøgelse for specifikt at søge efter den effekt, du nu tror, er der. Hvis resultatet af denne test er statistisk signifikant, har du endelig reelle beviser.”
DatamanipulationRediger
Informelt kaldet “fudging the data”, omfatter denne praksis selektiv rapportering (se også publikationsbias) og endda simpelthen at opfinde falske data.
Eksempler på selektiv rapportering er der mange af. De nemmeste og mest almindelige eksempler indebærer, at man vælger en gruppe af resultater, der følger et mønster, der er i overensstemmelse med den foretrukne hypotese, mens man ignorerer andre resultater eller “datakørsler”, der modsiger hypotesen.
Sanselige forskere har længe anfægtet undersøgelser, der viser mennesker med ESP-færdigheder. Kritikerne beskylder ESP-tilhængere for kun at offentliggøre eksperimenter med positive resultater og lægge dem, der viser negative resultater, på hylden. Et “positivt resultat” er en testkørsel (eller datakørsel), hvor forsøgspersonen gætter et skjult kort osv. med en meget højere frekvens end tilfældighederne.
Videnskabsfolk sætter generelt spørgsmålstegn ved gyldigheden af undersøgelsesresultater, der ikke kan reproduceres af andre undersøgere. Nogle forskere nægter dog at offentliggøre deres data og metoder.
Datamanipulation er et alvorligt problem/overvejelse i de mest ærlige statistiske analyser. Outliers, manglende data og ikke-normalitet kan alle påvirke validiteten af en statistisk analyse negativt. Det er hensigtsmæssigt at undersøge dataene og udbedre reelle problemer, inden analysen påbegyndes. “n ethvert spredningsdiagram vil der være nogle punkter, der er mere eller mindre løsrevet fra hovedparten af skyen: disse punkter bør kun afvises af årsag.”
Andre fejlslutningerRediger
Pseudoreplikation er en teknisk fejl, der er forbundet med variansanalyse. Kompleksiteten skjuler det faktum, at der forsøges en statistisk analyse på en enkelt prøve (N=1). For dette degenererede tilfælde kan variansen ikke beregnes (division med nul). En (N=1) vil altid give forskeren den højeste statistiske korrelation mellem forsætlig bias og faktiske resultater.
Gambler’s fallacy antager, at en begivenhed, for hvilken der kan måles en fremtidig sandsynlighed, havde den samme sandsynlighed for at ske, når den allerede er indtruffet. Hvis nogen således allerede har kastet 9 mønter, og hver mønt har givet hovedet, har folk en tendens til at antage, at sandsynligheden for, at et tiende kast også giver hovedet, er 1023 til 1 imod (hvilket den var, før den første mønt blev kastet), når chancen for det tiende hoved i virkeligheden er 50 % (hvis man antager, at mønten er upartisk).
Aanklagerens fejlslutning har i Storbritannien ført til, at Sally Clark fejlagtigt er blevet dømt for at have dræbt sine to sønner. I retten blev den lave statistiske sandsynlighed (1 ud af 73 millioner) for, at en kvindes to børn døde af pludselig spædbarnsdød, som professor Sir Roy Meadow angav, misfortolket til at antyde en lav sandsynlighed for, at hun var uskyldig. Selv hvis den angivne sandsynlighed for dobbelt SIDS, som senere blev anfægtet af Royal Statistical Society, var korrekt, er man nødt til at afveje alle mulige forklaringer mod hinanden for at kunne drage en konklusion om, hvilken der mest sandsynligt var årsag til de to børns uforklarlige død. De foreliggende data tyder på, at oddsene ville være ni gange større for dobbelt SIDS end for dobbelt mord “. Sally Clarks dom blev i sidste ende omstødt.
Den ludiske fejlslutning. Sandsynligheder er baseret på simple modeller, der ignorerer reelle (om end fjerne) muligheder. Pokerspillere tager ikke højde for, at en modstander kan trække en pistol i stedet for et kort. Forsikringstagere (og regeringer) antager, at forsikringsselskaberne vil forblive solvente, men se AIG og systemisk risiko.
Andre typer misbrugRediger
Andre misbrug omfatter sammenligning af æbler og pærer, brug af det forkerte gennemsnit, regression mod gennemsnittet og paraplyudtrykket garbage in, garbage out. Nogle statistikker er ganske enkelt irrelevante for et spørgsmål.
Anscombes kvartet er et opdigtet datasæt, der eksemplificerer manglerne ved simpel beskrivende statistik (og værdien af dataplotting før numerisk analyse).