Att avfärda ogynnsamma observationerRedigera

Se även: Allt ett företag behöver göra för att marknadsföra en neutral (värdelös) produkt är att hitta eller genomföra till exempel 40 studier med en konfidensnivå på 95 %. Om produkten verkligen är värdelös skulle detta i genomsnitt ge upphov till en studie som visar att produkten är nyttig, en studie som visar att den är skadlig och trettioåtta icke-slutsamma studier (38 är 95 % av 40). Denna taktik blir effektivare ju fler studier som finns tillgängliga. Organisationer som inte publicerar alla studier de genomför, t.ex. tobaksbolag som förnekar en koppling mellan rökning och cancer, anti-rökarförespråkare och medier som försöker bevisa en koppling mellan rökning och olika åkommor, eller mirakelpillerförsäljare, kommer troligen att använda sig av denna taktik.

Ronald Fisher tog hänsyn till denna fråga i sitt berömda exempelexperiment om damsmakning av te (från hans bok från 1935, The Design of Experiments). När det gäller upprepade experiment sade han: ”Det skulle helt klart vara illegitimt, och skulle beröva vår beräkning dess grund, om inte alla misslyckade resultat togs med i beräkningen.”

En annan term som är relaterad till detta begrepp är körsbärsplockning.

Ignorera viktiga egenskaperRedigera

Multivariabla datamängder har två eller fler egenskaper/dimensioner. Om för få av dessa egenskaper väljs ut för analys (t.ex. om endast en egenskap väljs ut och enkel linjär regression utförs i stället för multipel linjär regression) kan resultaten bli missvisande. Detta gör analytikern sårbar för någon av olika statistiska paradoxer, eller i vissa (inte alla) fall falsk kausalitet som nedan.

Laddade frågorRedigera

Huvudartikel: Loaded question

Svaren i undersökningar kan ofta manipuleras genom att formulera frågan på ett sådant sätt att det framkallar en preferens mot ett visst svar från den svarande. Till exempel, vid en opinionsundersökning om stöd för ett krig kommer frågorna:

  • Stöder du USA:s försök att införa frihet och demokrati på andra platser i världen?
  • Stöder du USA:s oprovocerade militära åtgärder?

kommer troligen att resultera i data som är snedvridna i olika riktningar, även om båda frågorna handlar om stödet för kriget. Ett bättre sätt att formulera frågan skulle kunna vara ”Stödjer du USA:s nuvarande militära åtgärder utomlands?”. Ett ännu mer nästan neutralt sätt att formulera frågan är ”Vad anser du om USA:s nuvarande militära åtgärder utomlands?”. Poängen bör vara att den person som blir tillfrågad inte på något sätt kan gissa sig till vad frågeställaren vill höra utifrån formuleringen.

Ett annat sätt att göra detta är att föregå frågan med information som stöder det ”önskade” svaret. Exempelvis kommer fler människor sannolikt att svara ”ja” på frågan ”Med tanke på den ökande skattebördan för medelklassfamiljerna, stöder du en sänkning av inkomstskatten?” än på frågan ”Med tanke på det ökande federala budgetunderskottet och det desperata behovet av mer intäkter, stöder du en sänkning av inkomstskatten?”

Den korrekta formuleringen av frågor kan vara mycket subtil. Svaren på två frågor kan variera dramatiskt beroende på i vilken ordning de ställs. ”En undersökning som frågade om ’aktieinnehav’ visade att de flesta boskapsuppfödare i Texas ägde aktier, men förmodligen inte av den typ som handlas på New York-börsen.”

Övergripande generaliseringRedigera

Övergripande generalisering är en felbedömning som inträffar när en statistik om en viss population påstås gälla för medlemmarna i en grupp för vilken den ursprungliga populationen inte är ett representativt urval.”

Föreställ dig till exempel att 100 % av alla äpplen observeras vara röda på sommaren. Påståendet ”Alla äpplen är röda” skulle vara ett exempel på övergeneralisering, eftersom den ursprungliga statistiken bara gällde för en specifik delmängd av äpplen (de på sommaren), som inte förväntas vara representativ för populationen av äpplen som helhet.

Ett verkligt exempel på övergeneraliseringsfelet kan observeras som en artefakt i moderna opinionsundersökningsmetoder, som förbjuder att man ringer till mobiltelefoner för att göra politiska opinionsundersökningar via telefon. Eftersom unga människor är mer benägna än andra demografiska grupper att sakna en konventionell fast telefon, kan en telefonundersökning som uteslutande undersöker svarande som ringer fasta telefoner leda till att resultaten av undersökningen underutnyttjar de ungas åsikter, om inga andra åtgärder vidtas för att ta hänsyn till denna snedvridning av urvalet. En opinionsundersökning som undersöker ungdomars röstpreferenser med hjälp av denna teknik kan således inte vara en helt korrekt representation av ungdomars verkliga röstpreferenser som helhet utan att övergeneralisera, eftersom det använda urvalet utesluter ungdomar som endast bär på mobiltelefoner, som kanske eller kanske inte har röstpreferenser som skiljer sig från resten av befolkningen.

Övergeneralisering sker ofta när information förmedlas via icke-tekniska källor, i synnerhet massmedier.

Fördomsfulla urvalRedigera

Huvudartikel: Biased sample

Vetenskapsmän har till stora kostnader lärt sig att det är svårt att samla in bra experimentella data för statistisk analys. Exempel: Placeboeffekten (sinnet över kroppen) är mycket kraftfull. 100 % av försökspersonerna fick utslag när de utsattes för ett inert ämne som felaktigt kallades för murgröna medan få fick utslag vid ett ”ofarligt” föremål som verkligen var murgröna. Forskarna bekämpar denna effekt genom dubbelblinda randomiserade jämförande experiment. Statistiker oroar sig vanligtvis mer för uppgifternas giltighet än för analysen. Detta återspeglas i ett studieområde inom statistiken som kallas experimentplanering.

Pollers har till stor kostnad lärt sig att det är svårt att samla in bra undersökningsdata för statistisk analys. Den selektiva effekten av mobiltelefoner på datainsamlingen (som diskuteras i avsnittet Omgeneralisering) är ett potentiellt exempel; om ungdomar med traditionella telefoner inte är representativa kan urvalet bli snedvridet. Urvalsundersökningar har många fallgropar och kräver stor omsorg vid genomförandet. Ett försök krävde nästan 3 000 telefonsamtal för att få 1 000 svar. Det enkla slumpmässiga urvalet av befolkningen ”är inte enkelt och kanske inte slumpmässigt.”

Felrapportering eller missförstånd av det uppskattade feletRedigera

Om ett forskarlag vill veta vad 300 miljoner människor tycker om ett visst ämne skulle det vara opraktiskt att fråga dem alla. Men om teamet väljer ett slumpmässigt urval av cirka 1 000 personer kan de vara ganska säkra på att de resultat som ges av denna grupp är representativa för vad den större gruppen skulle ha sagt om alla hade blivit tillfrågade.

Denna säkerhet kan faktiskt kvantifieras med hjälp av den centrala gränsvärdessatsen och andra matematiska resultat. Förtroendet uttrycks som en sannolikhet för att det sanna resultatet (för den större gruppen) ligger inom ett visst intervall av skattningen (siffran för den mindre gruppen). Detta är den siffra ”plus eller minus” som ofta anges för statistiska undersökningar. Sannolikhetsdelen av konfidensnivån nämns vanligtvis inte; om så är fallet antas det vara ett standardtal som 95 %.

De två siffrorna är relaterade. Om en undersökning har ett uppskattat fel på ±5 % vid 95 % konfidensgrad har den också ett uppskattat fel på ±6,6 % vid 99 % konfidensgrad. ± x {\displaystyle x}

% vid 95 % konfidens är alltid ± 1,32 x {\displaystyle 1,32x}

% med 99 % konfidens för en normalfördelad population.

Jo mindre det uppskattade felet är, desto större är det nödvändiga urvalet, vid en given konfidensnivå.

med 95,4 % konfidens:

±1 % skulle kräva 10 000 personer.
±2 % skulle kräva 2 500 personer.
±3 % skulle kräva 1111 personer.
±4 % skulle kräva 625 personer.
±5 % skulle kräva 400 personer.
±10 % skulle kräva 100 personer.
±20% skulle kräva 25 personer.
±25% skulle kräva 16 personer.
±50% skulle kräva 4 personer.

Då konfidenssiffran utelämnas kan man anta att det är 100 % säkert att det sanna resultatet ligger inom det uppskattade felet. Detta är inte matematiskt korrekt.

Många människor kanske inte inser att slumpmässigheten i urvalet är mycket viktig. I praktiken genomförs många opinionsundersökningar per telefon, vilket snedvrider urvalet på flera sätt, bland annat genom att utesluta personer som inte har telefoner, gynna att inkludera personer som har mer än en telefon, gynna att inkludera personer som är villiga att delta i en telefonundersökning framför dem som vägrar, osv. Icke slumpmässigt urval gör det uppskattade felet otillförlitligt.

Å andra sidan kan människor anse att statistik i sig är otillförlitlig eftersom alla inte blir uppringda, eller eftersom de själva aldrig blir tillfrågade. Människor kanske anser att det är omöjligt att få fram uppgifter om åsikterna hos tiotals miljoner människor genom att bara fråga några tusen personer. Detta är också felaktigt. En opinionsundersökning med perfekt opartiskt urval och sanningsenliga svar har en matematiskt bestämd felmarginal, som endast beror på antalet tillfrågade personer.

Hur som helst rapporteras ofta endast en felmarginal för en undersökning. När resultaten rapporteras för befolkningsundergrupper gäller en större felmarginal, men detta kanske inte framgår tydligt. Till exempel kan en undersökning med 1 000 personer innehålla 100 personer från en viss etnisk eller ekonomisk grupp. De resultat som fokuserar på den gruppen kommer att vara mycket mindre tillförlitliga än resultaten för hela befolkningen. Om felmarginalen för hela urvalet var 4 %, låt oss säga, kan felmarginalen för en sådan undergrupp vara omkring 13 %.

Det finns också många andra mätproblem i befolkningsundersökningar.

De problem som nämns ovan gäller alla statistiska experiment, inte bara befolkningsundersökningar.

Fördjupad information: Falska kausaliteterRedigera

Huvudartikel: Undersökning och statistisk undersökning: Korrelation innebär inte kausalitet

När ett statistiskt test visar en korrelation mellan A och B finns det vanligtvis sex möjligheter:

  1. A orsakar B.
  2. B orsakar A.
  3. A och B orsakar både delvis varandra.
  4. A och B orsakas båda av en tredje faktor, C.
  5. B orsakas båda av C, som är korrelerad med A.
  6. Den observerade korrelationen berodde enbart på slumpen.

Den sjätte möjligheten kan kvantifieras med hjälp av statistiska tester som kan beräkna sannolikheten för att den observerade korrelationen skulle vara lika stor som den är enbart av slumpen om det i själva verket inte finns något samband mellan variablerna. Men även om den möjligheten har en liten sannolikhet finns det fortfarande de fem andra.

Om antalet människor som köper glass på stranden har ett statistiskt samband med antalet människor som drunknar på stranden, så skulle ingen hävda att glass orsakar drunkning eftersom det är uppenbart att det inte är så. (I det här fallet är både drunkning och köp av glass tydligt relaterade till en tredje faktor: antalet människor på stranden).

Denna felaktighet kan till exempel användas för att bevisa att exponering för en kemikalie orsakar cancer. Ersätt ”antal människor som köper glass” med ”antal människor som utsätts för kemikalie X” och ”antal människor som drunknar” med ”antal människor som får cancer”, och många människor kommer att tro dig. I en sådan situation kan det finnas ett statistiskt samband även om det inte finns någon verklig effekt. Om det till exempel finns en uppfattning om att en kemikalieanläggning är ”farlig” (även om den egentligen inte är det) kommer fastighetsvärdena i området att sjunka, vilket kommer att locka fler låginkomstfamiljer att flytta till det området. Om låginkomstfamiljer löper större risk att drabbas av cancer än höginkomstfamiljer (t.ex. på grund av sämre kost eller sämre tillgång till sjukvård) kommer cancerfrekvensen att öka, även om kemikalien i sig inte är farlig. Man tror att detta är exakt vad som hände med några av de tidiga studierna som visade en koppling mellan EMF (elektromagnetiska fält) från kraftledningar och cancer.

I väl utformade studier kan effekten av falsk kausalitet elimineras genom att man slumpmässigt placerar vissa personer i en ”behandlingsgrupp” och vissa personer i en ”kontrollgrupp”, och ger behandlingsgruppen behandlingen och inte ger kontrollgruppen behandlingen. I exemplet ovan kan en forskare utsätta en grupp människor för kemikalie X och låta en annan grupp vara oexponerad. Om den första gruppen hade högre cancerfrekvens vet forskaren att det inte finns någon tredje faktor som påverkade om en person utsattes eller inte, eftersom han kontrollerade vilka som utsattes eller inte utsattes, och han tilldelade människor slumpmässigt till de exponerade och icke-exponerade grupperna. I många tillämpningar är det dock antingen oöverkomligt dyrt, ogenomförbart, oetiskt, olagligt eller rent av omöjligt att genomföra ett experiment på detta sätt. Det är till exempel högst osannolikt att en IRB skulle godkänna ett experiment som innebär att människor avsiktligt utsätts för ett farligt ämne för att testa dess toxicitet. De uppenbara etiska konsekvenserna av sådana typer av experiment begränsar forskarnas möjligheter att empiriskt testa orsakssamband.

Bevis för nollhypotesenRedigera

I ett statistiskt test anses nollhypotesen ( H 0 {\displaystyle H_{0}}

) vara giltig tills tillräckligt med data bevisar att den är fel. Då är H 0 {\displaystyle H_{0}}

förkastas och den alternativa hypotesen ( H A {\displaystyle H_{A}}

) anses vara bevisad korrekt. Detta kan ske av en slump, även om H 0 {\displaystyle H_{0}}

är sann, med en sannolikhet som betecknas α {\displaystyle \alpha }

(signifikansnivån). Detta kan jämföras med rättsprocessen, där den anklagade betraktas som oskyldig ( H 0 {\displaystyle H_{0}}

) tills det bevisas att han eller hon är skyldig ( H A {\displaystyle H_{A}}}

) bortom allt rimligt tvivel ( α {\displaystyle \alpha }

).

Men om data inte ger oss tillräckliga bevis för att förkasta att H 0 {\displaystyle H_{0}}

, bevisar detta inte automatiskt att H 0 {\displaystyle H_{0}}

är korrekt. Om t.ex. en tobaksproducent vill visa att dess produkter är säkra kan den lätt genomföra ett test med ett litet urval av rökare jämfört med ett litet urval av icke-rökare. Det är osannolikt att någon av dem kommer att utveckla lungcancer (och även om de gör det måste skillnaden mellan grupperna vara mycket stor för att förkasta H 0 {\displaystyle H_{0}}

). Därför är det troligt – även om rökning är farligt – att vårt test inte kommer att förkasta H 0 {\displaystyle H_{0}}

. Om H 0 {\displaystyle H_{0}}

accepteras, följer det inte automatiskt att rökning bevisligen är ofarlig. Testet har otillräcklig effekt för att förkasta H 0 {\displaystyle H_{0}}

, så testet är värdelöst och värdet av ”beviset” för H 0 {\displaystyle H_{0}}

är också noll.

Detta kan – med hjälp av den rättsliga analogin ovan – jämföras med den verkligt skyldige anklagade som släpps fri bara för att bevisen inte är tillräckliga för en fällande dom. Detta bevisar inte den anklagades oskuld, utan bara att det inte finns tillräckligt med bevis för en fällande dom.

”…nollhypotesen är aldrig bevisad eller fastställd, men den är möjligen motbevisad, under experimentets gång. Varje experiment kan sägas existera endast för att ge fakta en chans att motbevisa nollhypotesen.” (Fisher i The Design of Experiments) Det finns många orsaker till förvirring, bland annat användningen av dubbel negativ logik och terminologi som är resultatet av sammanslagningen av Fishers ”signifikanstestning” (där nollhypotesen aldrig accepteras) med ”hypotestestning” (där en viss hypotes alltid accepteras).

Förväxling mellan statistisk signifikans och praktisk signifikansRedigera

Statistisk signifikans är ett mått på sannolikhet; praktisk signifikans är ett mått på effekt. Ett botemedel mot skallighet är statistiskt signifikant om en sparsam persikofuzz vanligtvis täcker den tidigare nakna hårbotten. Botemedlet är praktiskt betydelsefullt när en hatt inte längre behövs i kallt väder och frisören frågar hur mycket man ska ta av toppen. De skalliga vill ha ett botemedel som är både statistiskt och praktiskt betydelsefullt; det kommer förmodligen att fungera och om det gör det kommer det att ha en stor hårig effekt. Vetenskapliga publikationer kräver ofta endast statistisk signifikans. Detta har lett till klagomål (under de senaste 50 åren) om att statistisk signifikanstestning är ett missbruk av statistiken.

DatamuddringRedigera

Huvudartikel: Data dredging

Data dredging är ett missbruk av datautvinning. Vid datamuddring undersöks stora sammanställningar av data i syfte att hitta en korrelation, utan något på förhand fastställt val av en hypotes som ska testas. Eftersom det konfidensintervall som krävs för att fastställa ett samband mellan två parametrar vanligen väljs till 95 % (vilket innebär att det finns en 95-procentig chans att det observerade sambandet inte beror på en slumpmässig slump), finns det alltså en 5-procentig chans att finna en korrelation mellan två uppsättningar av helt slumpmässiga variabler. Med tanke på att datautredningar vanligtvis undersöker stora datamängder med många variabler, och därmed ett ännu större antal par av variabler, är det nästan säkert att falska men till synes statistiskt signifikanta resultat kommer att hittas i en sådan studie.

Notera att datautredningar är ett giltigt sätt att hitta en möjlig hypotes, men att hypotesen sedan måste testas med data som inte användes i den ursprungliga utredningen. Missbruket uppstår när hypotesen anges som ett faktum utan ytterligare validering.

”Man kan inte på ett legitimt sätt testa en hypotes med hjälp av samma data som först föreslog hypotesen. Lösningen är tydlig. När du väl har en hypotes, utformar du en studie för att specifikt söka efter den effekt som du nu tror finns där. Om resultatet av detta test är statistiskt signifikant har du äntligen riktiga bevis.”

DatamanipulationRedigera

Det får inte förväxlas med databehandling, dataförberedelse eller datahantering, överlappande termer som ofta kallas generellt för ”datamanipulation”.

Informellt kallad ”fudging the data”, innefattar denna praxis selektiv rapportering (se även publikationsbias) och till och med att helt enkelt hitta på falska uppgifter.

Exempel på selektiv rapportering finns i överflöd. De enklaste och vanligaste exemplen innebär att man väljer ut en grupp resultat som följer ett mönster som överensstämmer med den föredragna hypotesen, medan man ignorerar andra resultat eller ”datakörningar” som motsäger hypotesen.

Psykoforskare har länge bestridit studier som visar på personer med ESP-förmåga. Kritiker anklagar ESP-förespråkare för att endast publicera experiment med positiva resultat och lägga dem som visar negativa resultat på hyllan. Ett ”positivt resultat” är en testkörning (eller datakörning) där försökspersonen gissar ett gömt kort etc. med mycket högre frekvens än slumpen.

Vetenskapsmän ifrågasätter i allmänhet giltigheten av studieresultat som inte kan reproduceras av andra undersökare. Vissa forskare vägrar dock att publicera sina data och metoder.

Datamanipulation är en allvarlig fråga/övervägande i de mest ärliga statistiska analyser. Uttalare, saknade uppgifter och icke-normalitet kan alla påverka den statistiska analysens giltighet negativt. Det är lämpligt att studera data och åtgärda verkliga problem innan analysen påbörjas. ”n varje spridningsdiagram kommer det att finnas några punkter som är mer eller mindre avskilda från huvuddelen av molnet: dessa punkter bör förkastas endast på grund av orsak.”

Andra felstegRedigera

Pseudoreplikation är ett tekniskt fel som är förknippat med variansanalys. Komplexiteten döljer det faktum att den statistiska analysen försöks på ett enda prov (N=1). För detta degenererade fall kan variansen inte beräknas (division med noll). Ett (N=1) kommer alltid att ge forskaren den högsta statistiska korrelationen mellan avsiktlig bias och faktiska resultat.

Gambler’s fallacy förutsätter att en händelse för vilken en framtida sannolikhet kan mätas hade samma sannolikhet att inträffa när den redan har inträffat. Om någon redan har kastat nio mynt och vart och ett av dem har gett krona, tenderar människor att anta att sannolikheten för att det tionde myntet också blir krona är 1023 mot 1 (vilket den var innan det första myntet kastades), när sannolikheten för att det tionde myntet blir krona i själva verket är 50 % (om man antar att myntet är opartiskt).

Ackvisarens felbedömning har i Storbritannien lett till att Sally Clark felaktigt dömts för att ha dödat sina två söner. I rätten misstolkades den låga statistiska sannolikheten (1 på 73 miljoner) för att en kvinnas två barn skulle dö av plötslig spädbarnsdöd, som professor Sir Roy Meadow angav, som ett tecken på att sannolikheten för att hon skulle vara oskyldig var låg. Även om den angivna sannolikheten för dubbelt SIDS, som senare ifrågasattes av Royal Statistical Society, var korrekt måste man väga alla möjliga förklaringar mot varandra för att kunna dra en slutsats om vilken som mest sannolikt orsakade de två barnens oförklarliga död. Tillgängliga uppgifter tyder på att oddsen skulle vara nio gånger bättre för dubbla barnlösa dödsfall än dubbla mordfall”. Sally Clarks fällande dom upphävdes så småningom.

Den ludiska villfarelsen. Sannolikheter baseras på enkla modeller som ignorerar verkliga (om än avlägsna) möjligheter. Pokerspelare tar inte hänsyn till att en motståndare kan dra en pistol i stället för ett kort. De försäkrade (och regeringar) antar att försäkringsbolagen kommer att förbli solventa, men se AIG och systemrisk.

Andra typer av missbrukRedigera

Andra missbruk inkluderar att jämföra äpplen och apelsiner, att använda fel genomsnitt, regression mot medelvärdet och paraplyfrasen garbage in, garbage out. Viss statistik är helt enkelt irrelevant för en fråga.

Anscombe’s quartet är ett påhittat dataset som exemplifierar bristerna i enkel deskriptiv statistik (och värdet av dataplottning före numerisk analys).

admin

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg