- Epäsuotuisten havaintojen hylkääminenEdit
- Tärkeiden piirteiden huomiotta jättäminenMuutos
- Ladatut kysymyksetEdit
- YliyleistäminenEdit
- Vääristyneitä otoksiaMuokkaa muokkaa
- Arvioidun virheen virheellinen ilmoittaminen tai väärinymmärrysEdit
- Väärä kausaliteettiEdit
- Nollahypoteesin todistaminenMuutos
- Tilastollisen merkitsevyyden sekoittaminen käytännölliseen merkitsevyyteen Muokkaa
- Tietojen ruoppaaminenMuokkaa
- Datan manipulointi Muokkaa
- Muut harhaluulotEdit
- Muita väärinkäytöksiä Muokkaa
Epäsuotuisten havaintojen hylkääminenEdit
Yhtiön ei tarvitse tehdä muuta neutraalin (hyödyttömän) tuotteen mainostamiseksi kuin löytää tai tehdä esimerkiksi 40 tutkimusta, joiden luotettavuustaso on 95 %. Jos tuote on todella hyödytön, tämä tuottaisi keskimäärin yhden tutkimuksen, joka osoittaisi tuotteen olevan hyödyllinen, yhden tutkimuksen, joka osoittaisi sen olevan haitallinen, ja kolmekymmentäkahdeksan epäselvää tutkimusta (38 on 95 % 40:stä). Tämä taktiikka on sitä tehokkaampi, mitä enemmän tutkimuksia on saatavilla. Organisaatiot, jotka eivät julkaise jokaista toteuttamaansa tutkimusta, kuten tupakkayhtiöt, jotka kiistävät tupakoinnin ja syövän välisen yhteyden, tupakoinnin vastaiset eturyhmät ja tiedotusvälineet, jotka yrittävät todistaa tupakoinnin ja erilaisten sairauksien välisen yhteyden, tai ihmepillereiden myyjät, käyttävät todennäköisesti tätä taktiikkaa.
Ronald Fisher pohdiskeli tätä asiaa kuuluisassa naisen maistelemaa teetä käsittelevässä esimerkkikokeessaan (hänen vuonna 1935 ilmestyneestä kirjastaan The Design of Experiments). Toistuvista kokeista hän sanoi: ”Olisi selvästi lainvastaista ja veisi laskelmaltamme pohjan, jos epäonnistuneita tuloksia ei otettaisi kaikkia huomioon.”
Toinen tähän käsitteeseen liittyvä termi on kirsikanpoiminta.
Tärkeiden piirteiden huomiotta jättäminenMuutos
Monimuuttujaisissa tietokokonaisuuksissa on kaksi tai useampia piirteitä/ulottuvuuksia. Jos näistä piirteistä valitaan analyysiin liian vähän (esimerkiksi jos valitaan vain yksi piirre ja suoritetaan yksinkertainen lineaarinen regressio moninkertaisen lineaarisen regression sijaan), tulokset voivat olla harhaanjohtavia. Tällöin analyytikko jää alttiiksi jollekin erilaisista tilastollisista paradokseista tai joissakin (ei kaikissa) tapauksissa väärälle kausaalisuudelle, kuten alla.
Ladatut kysymyksetEdit
Kyselytutkimusten vastauksia voidaan usein manipuloida muotoilemalla kysymys siten, että vastaajasta saadaan aikaan taipumus tiettyyn vastaukseen. Esimerkiksi sodan kannatusta kysyttäessä kysymykset:
- Tuketko Yhdysvaltojen yritystä tuoda vapautta ja demokratiaa muualle maailmaan?
- Tuketko Yhdysvaltojen provosoimatonta sotilaallista toimintaa?
johtavat todennäköisesti eri suuntiin vinoutuneisiin tietoihin, vaikka molemmissa kysytään sodan kannatuksesta. Parempi tapa muotoilla kysymys voisi olla ”Tuetko Yhdysvaltojen nykyisiä sotilaallisia toimia ulkomailla?”. Vielä lähes neutraalimpi tapa muotoilla kysymys olisi ”Mikä on näkemyksenne Yhdysvaltojen nykyisistä sotilaallisista toimista ulkomailla?”. Tarkoituksena pitäisi olla, että kysyjällä ei ole mitään mahdollisuutta arvata sanamuodosta, mitä kysyjä mahdollisesti haluaa kuulla.
Toinen tapa on edeltää kysymystä tiedoilla, jotka tukevat ”haluttua” vastausta. Esimerkiksi kysymykseen ”Kun otetaan huomioon keskiluokkaisten perheiden kasvava verotaakka, kannatatteko tuloveron alentamista?” vastataan todennäköisesti useammin ”kyllä” kuin kysymykseen ”Kun otetaan huomioon liittovaltion kasvava budjettivaje ja epätoivoinen tarve saada lisää tuloja, kannatatteko tuloveron alentamista?”
Kysymysten oikeanlainen muotoilu voi olla hyvin hienovaraista. Vastaukset kahteen kysymykseen voivat vaihdella dramaattisesti riippuen siitä, missä järjestyksessä ne esitetään. ”Kyselytutkimuksessa, jossa kysyttiin ’osakkeiden omistusta’, havaittiin, että suurin osa teksasilaisista karjankasvattajista omisti osakkeita, vaikkakaan ei luultavasti sellaisia, joilla käydään kauppaa New Yorkin pörssissä.”
YliyleistäminenEdit
Yliyleistäminen on harhaluulo, joka esiintyy, kun tiettyä perusjoukkoa koskevan tilaston väitetään pitävän paikkansa myös sellaisen ryhmän jäsenten keskuudessa, jolle alkuperäinen perusjoukko ei ole edustava otos.
Yksi esimerkki: 100 %:lla omenoista havaitaan, että niiden katsotaan olevan punaisia kesällä. Väite ”Kaikki omenat ovat punaisia” olisi ylisuuren yleistyksen tapaus, koska alkuperäinen tilasto pitää paikkansa vain tietylle omenoiden osajoukolle (kesällä olevat omenat), jonka ei oleteta edustavan koko omenapopulaatiota.
Reaalimaailman esimerkki ylisuuren yleistyksen harhaluulosta voidaan havaita nykyaikaisen mielipidekyselytekniikan artefaktina, joka kieltää soittamisen kännyköihin puhelimen välityksellä tapahtuvissa poliittisissa kyselyissä. Koska nuoret ovat muita väestöryhmiä todennäköisemmin vailla perinteistä ”lankapuhelinta”, puhelinkysely, jossa kysytään yksinomaan lankapuhelimiin soittaneilta vastaajilta, voi aiheuttaa sen, että kyselyn tulokset eivät ota riittävästi tietoa nuorten mielipiteistä, ellei otannan vääristymisen huomioon ottamiseksi toteuteta muita toimenpiteitä. Näin ollen kyselytutkimus, jossa tutkitaan nuorten äänestysmieltymyksiä tätä tekniikkaa käyttäen, ei välttämättä anna täysin tarkkaa kuvaa nuorten todellisista äänestysmieltymyksistä kokonaisuutena ilman, että se yleistyy liikaa, koska käytetty otos sulkee pois vain matkapuhelinta käyttävät nuoret, joiden äänestysmieltymykset voivat poiketa muusta väestöstä tai olla poikkeamatta siitä.
Yliyleistämistä tapahtuu usein silloin, kun tietoa välitetään ei-ammattitaitoisista lähteistä, erityisesti joukkotiedotusvälineiden välityksellä.
Vääristyneitä otoksiaMuokkaa muokkaa
Tutkijat ovat oppineet suurella vaivalla, että hyvän kokeellisen aineiston kerääminen tilastollista analyysia varten on vaikeaa. Esim: Plasebovaikutus (mieli yli kehon) on hyvin voimakas. 100 % koehenkilöistä sai ihottumaa, kun he altistuivat inertille aineelle, jota virheellisesti kutsuttiin myrkkysumakaksi, kun taas harva sai ihottumaa ”vaarattomalle” esineelle, joka todella oli myrkkysumakaa. Tutkijat torjuvat tätä vaikutusta kaksoissokkoutetuilla satunnaistetuilla vertailukokeilla. Tilastotieteilijät ovat yleensä enemmän huolissaan aineiston pätevyydestä kuin analyysistä. Tämä näkyy tilastotieteen tutkimuskohteessa, joka tunnetaan nimellä kokeiden suunnittelu.
Kyselytutkimuksen tekijät ovat oppineet suurella vaivalla, että hyvän kyselyaineiston kerääminen tilastollista analyysia varten on vaikeaa. Matkapuhelinten valikoiva vaikutus tiedonkeruuseen (jota käsiteltiin kohdassa Yliyleistäminen) on yksi mahdollinen esimerkki; Jos nuoret, joilla on perinteinen puhelin, eivät ole edustavia, otos voi olla vääristynyt. Otantatutkimuksissa on monia sudenkuoppia, ja niiden toteuttaminen edellyttää suurta huolellisuutta. Eräässä tutkimuksessa tarvittiin lähes 3000 puhelinsoittoa 1000 vastauksen saamiseksi. Yksinkertainen satunnaisotos perusjoukosta ”ei ole yksinkertainen eikä välttämättä satunnainen.”
Arvioidun virheen virheellinen ilmoittaminen tai väärinymmärrysEdit
Jos tutkimusryhmä haluaa tietää, miten 300 miljoonaa ihmistä suhtautuu tiettyyn aiheeseen, olisi epäkäytännöllistä kysyä heiltä kaikilta. Jos tutkimusryhmä kuitenkin valitsee satunnaisotoksen, johon kuuluu noin 1000 ihmistä, he voivat olla melko varmoja siitä, että tämän ryhmän antamat tulokset edustavat sitä, mitä suurempi joukko olisi sanonut, jos heiltä kaikilta olisi kysytty.
Tämä varmuus voidaan itse asiassa kvantifioida keskusrajateoremin ja muiden matemaattisten tulosten avulla. Luottamus ilmaistaan todennäköisyytenä sille, että todellinen tulos (suuremman ryhmän osalta) on tietyn vaihteluvälin sisällä estimaatista (pienemmän ryhmän luku). Tämä on ”plus tai miinus” -luku, joka usein mainitaan tilastollisissa tutkimuksissa. Luottamustason todennäköisyysosaa ei yleensä mainita; jos sitä mainitaan, sen oletetaan olevan vakioluku, kuten 95 %.
Nämä kaksi lukua liittyvät toisiinsa. Jos tutkimuksen arvioitu virhe on ±5 % 95 %:n luotettavuustasolla, sen arvioitu virhe on myös ±6,6 % 99 %:n luotettavuustasolla. ± x {\displaystyle x}
% 95 %:n luotettavuudella on aina ± 1.32 x {\displaystyle 1.32x}
% 99 %:n luotettavuudella normaalisti jakautuneelle populaatiolle.
Mitä pienempi on estimoitu virhe, sitä suurempi on tarvittava otos tietyllä luottamustasolla.
95,4 %:n luottamustasolla:
±1 % vaatisi 10 000 ihmistä.
±2 % vaatisi 2 500 ihmistä.
±3 % vaatisi 1111 ihmistä.
±4 % vaatisi 625 ihmistä.
±5 % vaatisi 400 ihmistä.
±10 % vaatisi 100 ihmistä.
±20 % vaatisi 25 henkilöä.
±25 % vaatisi 16 henkilöä.
±50 % vaatisi 4 ihmistä.
Miehet saattavat olettaa, koska luottamusluku on jätetty pois, että on 100 %:n varmuus siitä, että todellinen tulos on arvioidun virheen sisällä. Tämä ei ole matemaattisesti oikein.
Monet ihmiset eivät ehkä ymmärrä, että otoksen satunnaisuus on hyvin tärkeää. Käytännössä monet mielipidekyselyt tehdään puhelimitse, mikä vääristää otosta monin tavoin, kuten jättämällä pois ihmiset, joilla ei ole puhelinta, suosimalla niiden ihmisten mukaan ottamista, joilla on useampi kuin yksi puhelin, suosimalla niiden ihmisten mukaan ottamista, jotka ovat halukkaita osallistumaan puhelinkyselyyn, niiden sijaan, jotka kieltäytyvät, jne. Muu kuin satunnaisotanta tekee arvioidusta virheestä epäluotettavan.
Toisaalta ihmiset saattavat ajatella, että tilastot ovat luonnostaan epäluotettavia, koska kaikille ei soiteta tai koska heitä itseään ei koskaan haastatella. Ihmiset saattavat ajatella, että on mahdotonta saada tietoa kymmenien miljoonien ihmisten mielipiteistä vain muutaman tuhannen ihmisen mielipidekyselyllä. Tämäkin on epätarkkaa. Täydellisen puolueettoman otannan ja totuudenmukaiset vastaukset sisältävällä mielipidekyselyllä on matemaattisesti määritetty virhemarginaali, joka riippuu vain kyselyyn osallistuneiden määrästä.
Mutta usein kyselystä ilmoitetaan vain yksi virhemarginaali. Kun tulokset raportoidaan väestön alaryhmien osalta, sovelletaan suurempaa virhemarginaalia, mutta tätä ei välttämättä tehdä selväksi. Esimerkiksi 1000 henkilön tutkimuksessa voi olla 100 henkilöä, jotka kuuluvat tiettyyn etniseen tai taloudelliseen ryhmään. Tähän ryhmään keskittyvät tulokset ovat paljon epäluotettavampia kuin koko väestöä koskevat tulokset. Jos koko otoksen virhemarginaali on vaikkapa 4 %, niin tällaisen alaryhmän virhemarginaali voi olla noin 13 %.
Väestötutkimuksissa on myös monia muita mittausongelmia.
Edellä mainitut ongelmat koskevat kaikkia tilastollisia kokeita, ei vain väestötutkimuksia.
Väärä kausaliteettiEdit
Kun tilastollinen testi osoittaa korrelaation A:n ja B:n välillä, on yleensä kuusi vaihtoehtoa:
- A aiheuttaa B:n.
- B aiheuttaa A:n.
- A ja B aiheuttavat molemmat osittain toisiaan.
- A:n ja B:n molempien syynä on kolmas tekijä, C.
- B:n syynä on A:n ja C:n välillä vallitseva korrelaatio.
- Havaittu korrelaatio johtuu puhtaasti sattumasta.
Kuudes mahdollisuus voidaan kvantifioida tilastollisilla testeillä, joilla voidaan laskea todennäköisyys sille, että havaittu korrelaatio olisi yhtä suuri kuin se on pelkän sattuman vuoksi, jos muuttujien välillä ei todellisuudessa ole mitään yhteyttä. Vaikka tuon mahdollisuuden todennäköisyys olisikin pieni, on kuitenkin vielä viisi muuta.
Jos rannalta jäätelöä ostavien ihmisten määrä on tilastollisesti yhteydessä rannalla hukkuvien ihmisten määrään, kukaan ei väittäisi jäätelön aiheuttavan hukkumista, koska on ilmeistä, että näin ei ole. (Tässä tapauksessa sekä hukkumisella että jäätelön ostamisella on selvästi yhteys kolmanteen tekijään: rannalla olevien ihmisten määrään).
Tätä harhaluuloa voidaan käyttää esimerkiksi todistamaan, että altistuminen jollekin kemikaalille aiheuttaa syöpää. Korvaa ”jäätelöä ostavien ihmisten määrä” sanoilla ”kemikaalille X altistuvien ihmisten määrä” ja ”hukkuvien ihmisten määrä” sanoilla ”syöpään sairastuvien ihmisten määrä”, ja monet ihmiset uskovat sinua. Tällaisessa tilanteessa voi olla tilastollinen korrelaatio, vaikka todellista vaikutusta ei olisikaan. Jos esimerkiksi kemian laitospaikkaa pidetään ”vaarallisena” (vaikka se ei todellisuudessa olisikaan), alueen kiinteistöjen arvot laskevat, mikä houkuttelee enemmän pienituloisia perheitä muuttamaan kyseiselle alueelle. Jos pienituloiset perheet sairastuvat todennäköisemmin syöpään kuin suurituloiset perheet (esimerkiksi huonomman ruokavalion tai huonomman sairaanhoidon saatavuuden vuoksi), syöpätapausten määrä nousee, vaikka kemikaali itsessään ei olisikaan vaarallinen. Uskotaan, että juuri näin kävi joissakin varhaisissa tutkimuksissa, joissa osoitettiin yhteys sähköjohtojen sähkömagneettisten kenttien ja syövän välillä.
Hyvin suunnitelluissa tutkimuksissa väärän kausaalisuuden vaikutus voidaan eliminoida määräämällä osa ihmisistä satunnaisesti ”hoitoryhmään” ja osa ”kontrolliryhmään” ja antamalla hoitoryhmälle hoitoa ja jättämällä hoitoryhmä ilman hoitoa kontrolliryhmälle. Edellä mainitussa esimerkissä tutkija saattaa altistaa yhden ihmisryhmän kemikaalille X ja jättää toisen ryhmän altistamatta. Jos ensimmäisessä ryhmässä syöpätapauksia oli enemmän, tutkija tietää, että mikään kolmas tekijä ei vaikuttanut siihen, altistuiko henkilö, koska hän kontrolloi, ketkä altistuivat ja ketkä eivät, ja hän jakoi ihmiset satunnaisesti altistuneiden ja ei-altistuneiden ryhmiin. Monissa sovelluksissa kokeen tekeminen tällä tavoin on kuitenkin joko kohtuuttoman kallista, mahdotonta, epäeettistä, laitonta tai suorastaan mahdotonta. On esimerkiksi hyvin epätodennäköistä, että IRB hyväksyisi kokeen, jossa ihmisiä altistettaisiin tarkoituksellisesti vaaralliselle aineelle sen myrkyllisyyden testaamiseksi. Tämäntyyppisten kokeiden ilmeiset eettiset seuraukset rajoittavat tutkijoiden mahdollisuuksia testata kausaalisuutta empiirisesti.
Nollahypoteesin todistaminenMuutos
Tilastollisessa testissä nollahypoteesia ( H 0 {\displaystyle H_{0}}
) pidetään pätevänä niin kauan, kunnes riittävän suuri määrä dataa todistaa sen vääräksi. Tällöin H 0 {\displaystyle H_{0}}
hylätään ja vaihtoehtoinen hypoteesi ( H A {\displaystyle H_{A}}
) katsotaan oikeaksi. Sattumalta näin voi käydä, vaikka H 0 {\displaystyle H_{0}}
on tosi, todennäköisyydellä, jota merkitään α {\displaystyle \alpha }.
(merkitsevyystaso). Tätä voidaan verrata oikeusprosessiin, jossa syytettyä pidetään syyttömänä ( H 0 {\displaystyle H_{0}}
), kunnes hänen syyllisyytensä ( H A {\displaystyle H_{A}}
) on todistettu yli perustellun epäilyksen ( α {\displaystyle \alpha }
).
Mutta jos data ei anna meille tarpeeksi todisteita hylätä, että H 0 {\displaystyle H_{0}}
, tämä ei automaattisesti todista, että H 0 {\displaystyle H_{0}}
on oikein. Jos esimerkiksi tupakanvalmistaja haluaa osoittaa, että sen tuotteet ovat turvallisia, se voi helposti tehdä testin pienellä otoksella tupakoitsijoita verrattuna pieneen otokseen tupakoimattomia. On epätodennäköistä, että kukaan heistä sairastuu keuhkosyöpään (ja vaikka sairastuisikin, ryhmien välisen eron on oltava hyvin suuri, jotta H 0 {\displaystyle H_{0}} voidaan hylätä.
). Siksi on todennäköistä – vaikka tupakointi olisi vaarallista – että testimme ei hylkää H 0 {\displaystyle H_{0}}
. Jos H 0 {\displaystyle H_{0}}
hyväksytään, siitä ei automaattisesti seuraa, että tupakointi on osoittautunut vaarattomaksi. Testin voima ei riitä hylkäämään H 0 {\displaystyle H_{0}}
, joten testi on hyödytön ja ”todisteen” arvo H 0 {\displaystyle H_{0}}
on myös nolla.
Tätä voidaan – edellä esitettyä oikeudellista analogiaa käyttäen – verrata todella syylliseen syytettyyn, joka vapautetaan vain siksi, että todisteet eivät riitä syyllisyystuomioon. Tämä ei todista vastaajan syyttömyyttä, vaan ainoastaan sen, että todisteet eivät riitä syyllisyystuomioon.
”…nollahypoteesia ei koskaan todisteta tai vahvisteta, vaan se mahdollisesti kumotaan, kokeilun kuluessa. Jokaisen kokeen voidaan sanoa olevan olemassa vain antaakseen tosiasioille mahdollisuuden kumota nollahypoteesi.” (Fisher teoksessa The Design of Experiments) Sekaannuksiin on monia syitä, kuten kaksoisnegatiivisen logiikan käyttö ja terminologia, joka johtuu Fisherin ”merkitsevyystestauksen” (jossa nollahypoteesia ei koskaan hyväksytä) ja ”hypoteesin testauksen” (jossa jokin hypoteesi hyväksytään aina) yhdistämisestä.
Tilastollisen merkitsevyyden sekoittaminen käytännölliseen merkitsevyyteen Muokkaa
Tilastollinen merkitsevyys mittaa todennäköisyyttä; käytännöllinen merkitsevyys mittaa vaikutusta. Kaljuuntumiskuuri on tilastollisesti merkitsevä, jos harva persikkakarvoitus yleensä peittää aiemmin paljaan päänahan. Parannus on käytännöllisesti merkittävä, kun hattua ei enää tarvita kylmällä säällä ja parturi kysyy, kuinka paljon latvaa pitää ottaa pois. Kalju haluaa parannuskeinon, joka on sekä tilastollisesti että käytännöllisesti merkittävä; se todennäköisesti toimii, ja jos se toimii, sillä on suuri karvainen vaikutus. Tieteellinen julkaiseminen edellyttää usein vain tilastollista merkitsevyyttä. Tämä on johtanut valituksiin (viimeiset 50 vuotta), joiden mukaan tilastollinen merkitsevyystestaus on tilastotieteen väärinkäyttöä.
Tietojen ruoppaaminenMuokkaa
Data dredging on tiedonlouhinnan väärinkäyttöä. Datan ruoppauksessa tutkitaan suuria aineistokokoelmia korrelaation löytämiseksi ilman ennalta määriteltyä valintaa testattavasta hypoteesista. Koska kahden muuttujan välisen suhteen toteamiseksi tarvittava luottamusväli valitaan yleensä 95 prosentiksi (mikä tarkoittaa, että on 95 prosentin mahdollisuus, että havaittu suhde ei johdu satunnaisuudesta), on siis 5 prosentin mahdollisuus löytää korrelaatio minkä tahansa kahden täysin satunnaisen muuttujan joukon välillä. Kun otetaan huomioon, että datan ruoppauksessa tutkitaan tyypillisesti suuria tietokokonaisuuksia, joissa on monia muuttujia ja siten vielä suurempi määrä muuttujapareja, on lähes varmaa, että tällaisessa tutkimuksessa löydetään virheellisiä, mutta näennäisesti tilastollisesti merkitseviä tuloksia.
Huomaa, että datan ruoppaaminen on pätevä tapa löytää mahdollinen hypoteesi, mutta tämä hypoteesi on sen jälkeen testattava tiedoilla, joita ei ole käytetty alkuperäisessä ruoppauksessa. Väärinkäyttöä tapahtuu silloin, kun tuo hypoteesi ilmoitetaan tosiasiana ilman lisävalidointia.
”Et voi laillisesti testata hypoteesia samoilla tiedoilla, jotka ensin ehdottivat tuota hypoteesia”. Korjauskeino on selvä. Kun sinulla on hypoteesi, suunnittele tutkimus, jolla etsitään nimenomaan sitä vaikutusta, jonka nyt uskot olevan olemassa. Jos tämän testin tulos on tilastollisesti merkitsevä, sinulla on vihdoin todellista näyttöä.”
Datan manipulointi Muokkaa
Informaalisesti ”tietojen vääristelyksi” kutsuttu käytäntö sisältää valikoivan raportoinnin (ks. myös julkaisuharha) ja jopa yksinkertaisesti väärien tietojen keksimisen.
Esimerkkejä valikoivasta raportoinnista on runsaasti. Helpoimpiin ja yleisimpiin esimerkkeihin kuuluu, että valitaan joukko tuloksia, jotka noudattavat halutun hypoteesin mukaista kaavaa, mutta jätetään huomiotta muut hypoteesin kanssa ristiriidassa olevat tulokset tai ”data-ajot”.
Psykologian tutkijat ovat jo pitkään kiistäneet tutkimukset, joiden mukaan ihmisillä on selvänäkemisen kykyjä. Kriitikot syyttävät ESP:n kannattajia siitä, että he julkaisevat vain positiivisia tuloksia sisältäviä kokeita ja hyllyttävät negatiivisia tuloksia osoittavat kokeet. ”Positiivinen tulos” on koeajo (tai data-ajo), jossa koehenkilö arvaa piilotetun kortin tms. paljon useammin kuin satunnainen sattuma.
Tutkijat yleensä kyseenalaistavat sellaisten tutkimustulosten paikkansapitävyyden, joita muut tutkijat eivät voi toistaa. Jotkut tutkijat kieltäytyvät kuitenkin julkaisemasta tietojaan ja menetelmiään.
Datan manipulointi on vakava kysymys/pohdinta rehellisimmissäkin tilastollisissa analyyseissä. Poikkeavat luvut, puuttuvat tiedot ja epänormaalius voivat kaikki vaikuttaa haitallisesti tilastollisen analyysin pätevyyteen. On tarkoituksenmukaista tutkia aineistoa ja korjata todelliset ongelmat ennen analyysin aloittamista. ”Missä tahansa hajontadiagrammissa on joitakin pisteitä, jotka ovat enemmän tai vähemmän irrallaan pilven pääosasta: nämä pisteet on hylättävä vain syystä.”
Muut harhaluulotEdit
Pseudoreplikointi on varianssianalyysiin liittyvä tekninen virhe. Monimutkaisuus kätkee sen tosiasian, että tilastollista analyysia yritetään tehdä yhdestä otoksesta (N=1). Tälle rappeutuneelle tapaukselle ei voida laskea varianssia (jako nollalla). (N=1) antaa tutkijalle aina suurimman tilastollisen korrelaation tarkoituksellisen harhan ja todellisten havaintojen välillä.
Gambler’s fallacy (uhkapelurin harhaluulo) olettaa, että tapahtumalla, jonka tuleva todennäköisyys voidaan mitata, oli sama todennäköisyys tapahtua, kun se on jo tapahtunut. Näin ollen, jos joku on jo heittänyt yhdeksän kolikkoa ja jokainen on tullut kruunuksi, ihmisillä on taipumus olettaa, että todennäköisyys sille, että kymmenes heitto on myös kruunu, on 1023:1 vastaan (mikä se oli ennen ensimmäisen kolikon heittämistä), vaikka itse asiassa todennäköisyys sille, että kymmenes kruunu on kruunu, on 50 % (olettaen, että kolikko on ennakkoluuloton).
Syyttäjän harhaluulo johti Isossa-Britanniassa siihen, että Sally Clarkia on tuomittu väärin perustein kahden poikansa taposta. Oikeudessa professori Sir Roy Meadowin antamaa pientä tilastollista todennäköisyyttä (1 73 miljoonasta), että naisen kaksi lasta kuolisi äkilliseen lapsikuolemasyndroomaan, tulkittiin väärin siten, että se viittasi hänen syyttömyytensä vähäiseen todennäköisyyteen. Vaikka Royal Statistical Societyn myöhemmin kyseenalaistama kaksoissidsin todennäköisyys olisikin oikea, on punnittava kaikkia mahdollisia selityksiä toisiaan vastaan, jotta voidaan tehdä päätelmä siitä, mikä todennäköisimmin aiheutti kahden lapsen selittämättömän kuoleman. Käytettävissä olevat tiedot viittaavat siihen, että kaksoissidsin todennäköisyys olisi yhdeksänkertainen verrattuna kaksoishenkirikokseen”. Sally Clarkin tuomio kumottiin lopulta.
Ludic fallacy. Todennäköisyydet perustuvat yksinkertaisiin malleihin, jotka jättävät huomiotta todelliset (joskin kaukaiset) mahdollisuudet. Pokerinpelaajat eivät ota huomioon, että vastustaja saattaa vetää kortin sijasta aseen. Vakuutetut (ja hallitukset) olettavat, että vakuutusyhtiöt pysyvät maksukykyisinä, mutta katso AIG ja systeemiriski.
Muita väärinkäytöksiä Muokkaa
Muita väärinkäytöksiä ovat esimerkiksi omenoiden ja appelsiinien vertailu, väärän keskiarvon käyttäminen, regressio kohti keskiarvoa ja sateenvarjomuotoinen fraasi garbage in, garbage out. Jotkut tilastot ovat yksinkertaisesti epäolennaisia jonkin asian kannalta.
Anscomben kvartetti on keksitty tietokokonaisuus, joka on esimerkki yksinkertaisten kuvailevien tilastojen puutteista (ja datan piirtämisen arvosta ennen numeerista analyysia).