- Het negeren van ongunstige waarnemingenEdit
- Het negeren van belangrijke kenmerkenEdit
- Geladen vragenEdit
- OvergeneralisatieEdit
- Vooringenomen steekproevenEdit
- Verkeerde rapportage of verkeerd begrip van geschatte foutEdit
- Valse causaliteitEdit
- Bewijs van de nulhypotheseEdit
- Verwarring van statistische significantie met praktische significantieEdit
- Data dredgingEdit
- GegevensmanipulatieEdit
- Andere drogredenenEdit
- Andere vormen van misbruikEdit
Het negeren van ongunstige waarnemingenEdit
Het enige wat een bedrijf hoeft te doen om een neutraal (nutteloos) product aan te prijzen, is het vinden of uitvoeren van bijvoorbeeld 40 studies met een betrouwbaarheidsniveau van 95%. Als het product werkelijk nutteloos is, zou dit gemiddeld één studie opleveren waaruit blijkt dat het product heilzaam is, één studie waaruit blijkt dat het schadelijk is en achtendertig onbesliste studies (38 is 95% van 40). Deze tactiek wordt doeltreffender naarmate er meer studies beschikbaar zijn. Organisaties die niet elk onderzoek publiceren dat ze uitvoeren, zoals tabaksfabrikanten die een verband tussen roken en kanker ontkennen, antirookgroepen en media die een verband tussen roken en verschillende kwalen proberen te bewijzen, of verkopers van wonderpillen, zullen deze tactiek waarschijnlijk gebruiken.
Ronald Fisher overwoog deze kwestie in zijn beroemde voorbeeldexperiment met damesthee (uit zijn boek uit 1935, The Design of Experiments). Over herhaalde experimenten zei hij: “Het zou duidelijk onwettig zijn, en onze berekening van haar basis beroven, als niet-succesvolle resultaten niet allemaal in rekening werden gebracht.”
Een andere term die met dit begrip samenhangt, is cherry picking.
Het negeren van belangrijke kenmerkenEdit
Multivariabele datasets hebben twee of meer kenmerken/dimensies. Als te weinig van deze kenmerken worden gekozen voor analyse (bijvoorbeeld als slechts één kenmerk wordt gekozen en eenvoudige lineaire regressie wordt uitgevoerd in plaats van meervoudige lineaire regressie), kunnen de resultaten misleidend zijn. Dit maakt de analist kwetsbaar voor een van de verschillende statistische paradoxen, of in sommige (niet alle) gevallen valse causaliteit zoals hieronder.
Geladen vragenEdit
De antwoorden op enquêtes kunnen vaak worden gemanipuleerd door de vraag zo te formuleren dat de respondent een overheersende houding aanneemt ten opzichte van een bepaald antwoord. Bijvoorbeeld, bij het peilen van de steun voor een oorlog zullen de vragen:
- Steunt u de poging van de VS om vrijheid en democratie naar andere plaatsen in de wereld te brengen?
- Steunt u de niet-uitgelokte militaire actie van de VS?
waarschijnlijk resulteren in gegevens die in verschillende richtingen wijzen, hoewel ze beide peilen naar de steun voor de oorlog. Een betere manier om de vraag te formuleren zou kunnen zijn: “Steunt u de huidige militaire actie van de VS in het buitenland? Een nog neutralere manier om die vraag te stellen is: “Wat is uw mening over het huidige militaire optreden van de VS in het buitenland?” Het punt moet zijn dat de ondervraagde geen mogelijkheid heeft om uit de formulering te raden wat de vraagsteller zou willen horen.
Een andere manier om dit te doen is om de vraag te laten voorafgaan door informatie die het “gewenste” antwoord ondersteunt. Bijvoorbeeld, meer mensen zullen waarschijnlijk “ja” antwoorden op de vraag “Gezien de toenemende belastingdruk op gezinnen in de middenklasse, bent u voorstander van verlaging van de inkomstenbelasting?” dan op de vraag “Gezien het stijgende federale begrotingstekort en de wanhopige behoefte aan meer inkomsten, bent u voorstander van verlaging van de inkomstenbelasting?”
De juiste formulering van vragen kan heel subtiel zijn. De antwoorden op twee vragen kunnen dramatisch verschillen, afhankelijk van de volgorde waarin ze worden gesteld. “Uit een enquête waarin werd gevraagd naar ‘eigendom van aandelen’ bleek dat de meeste Texaanse veeboeren aandelen bezaten, hoewel waarschijnlijk niet van het soort dat op de beurs van New York wordt verhandeld.”
OvergeneralisatieEdit
Overgeneralisatie is een denkfout die optreedt wanneer een statistiek over een bepaalde populatie wordt beweerd te gelden voor leden van een groep waarvoor de oorspronkelijke populatie geen representatieve steekproef is.
Voorbeeld, stel dat 100% van de appels in de zomer rood zijn. De bewering “Alle appels zijn rood” zou een geval van overgeneralisatie zijn, omdat de oorspronkelijke statistiek alleen waar was voor een specifieke deelverzameling van appels (die in de zomer), waarvan niet wordt verwacht dat ze representatief is voor de populatie van appels als geheel.
Een realistisch voorbeeld van de overgeneralisatiefout kan worden waargenomen als een artefact van moderne peilingstechnieken, die het bellen van mobiele telefoons voor telefonische politieke peilingen verbieden. Aangezien jongeren meer kans maken dan andere bevolkingsgroepen om niet over een conventionele “vaste” telefoon te beschikken, kan een telefonische opiniepeiling waarbij uitsluitend respondenten van vaste telefoons worden ondervraagd, ertoe leiden dat de opinies van jongeren in de opiniepeiling ondervertegenwoordigd zijn, indien geen andere maatregelen worden genomen om deze scheefheid van de steekproef te corrigeren. Zo kan een peiling die de stemvoorkeuren van jongeren onderzoekt met behulp van deze techniek geen perfect nauwkeurige weergave zijn van de werkelijke stemvoorkeuren van jongeren als geheel zonder overgeneralisatie, omdat de gebruikte steekproef jongeren uitsluit die alleen mobiele telefoons dragen, die al dan niet stemvoorkeuren hebben die verschillen van de rest van de bevolking.
Overgeneralisatie treedt vaak op wanneer informatie wordt doorgegeven via niet-technische bronnen, met name massamedia.
Vooringenomen steekproevenEdit
Wetenschappers hebben tegen hoge kosten geleerd dat het verzamelen van goede experimentele gegevens voor statistische analyse moeilijk is. Voorbeeld: Het placebo-effect (geest boven lichaam) is zeer krachtig. 100% van de proefpersonen kreeg uitslag bij blootstelling aan een inerte stof die ten onrechte gifsumak werd genoemd, terwijl slechts weinigen uitslag kregen bij een “onschuldig” voorwerp dat in werkelijkheid gifsumak was. Onderzoekers bestrijden dit effect door dubbelblinde gerandomiseerde vergelijkende experimenten. Statistici maken zich doorgaans meer zorgen over de geldigheid van de gegevens dan over de analyse. Dit wordt weerspiegeld in een studiegebied binnen de statistiek dat bekend staat als het ontwerp van experimenten.
Pollers hebben tegen hoge kosten geleerd dat het verzamelen van goede enquêtegegevens voor statistische analyse moeilijk is. Het selectieve effect van mobiele telefoons op de gegevensverzameling (besproken in het hoofdstuk Overgeneralisatie) is een mogelijk voorbeeld; als jongeren met traditionele telefoons niet representatief zijn, kan de steekproef vertekend zijn. Steekproefenquêtes kennen vele valkuilen en vereisen grote zorgvuldigheid bij de uitvoering. Eén poging vergde bijna 3000 telefoongesprekken om 1000 antwoorden te krijgen. De eenvoudige aselecte steekproef van de bevolking “is niet eenvoudig en is misschien niet willekeurig.”
Verkeerde rapportage of verkeerd begrip van geschatte foutEdit
Als een onderzoeksteam wil weten hoe 300 miljoen mensen denken over een bepaald onderwerp, zou het onpraktisch zijn om ze allemaal te vragen. Maar als het team een willekeurige steekproef van ongeveer 1000 mensen neemt, kan het er vrij zeker van zijn dat de resultaten van deze groep representatief zijn voor wat de grotere groep zou hebben gezegd als ze allemaal waren ondervraagd.
Dit vertrouwen kan feitelijk worden gekwantificeerd door de centrale limiettheorema en andere wiskundige resultaten. Het vertrouwen wordt uitgedrukt als de waarschijnlijkheid dat het ware resultaat (voor de grotere groep) binnen een bepaald bereik van de schatting (het cijfer voor de kleinere groep) ligt. Dit is het “plus of min”-cijfer dat vaak wordt vermeld voor statistische onderzoeken. Het waarschijnlijkheidsgedeelte van het betrouwbaarheidsniveau wordt gewoonlijk niet vermeld; indien dit wel het geval is, wordt aangenomen dat het om een standaardcijfer als 95% gaat.
De twee getallen staan met elkaar in verband. Als een enquête een geschatte fout van ±5% heeft bij een betrouwbaarheid van 95%, dan heeft het ook een geschatte fout van ±6,6% bij een betrouwbaarheid van 99%. ± x {\displaystyle x}
% bij 95% betrouwbaarheid is altijd ± 1,32 x {\displaystyle 1,32x}
% bij 99% betrouwbaarheid voor een normaal verdeelde populatie.
Hoe kleiner de geschatte fout, hoe groter de vereiste steekproef, bij een gegeven betrouwbaarheidsniveau.
bij 95,4% betrouwbaarheid:
±1% zou 10.000 mensen nodig hebben.
±2% zou 2.500 mensen nodig hebben.
±3% zou 1.111 mensen nodig hebben.
±4% zou 625 mensen nodig hebben.
±5% zou 400 mensen nodig hebben.
±10% zou 100 mensen nodig hebben.
±20% zou 25 mensen nodig hebben.
±25% zou 16 mensen nodig hebben.
±50% zou 4 mensen vereisen.
Mensen kunnen aannemen, omdat het betrouwbaarheidscijfer is weggelaten, dat er een 100% zekerheid is dat het ware resultaat binnen de geschatte fout ligt. Dit is wiskundig niet juist.
Velen realiseren zich misschien niet dat de willekeur van de steekproef zeer belangrijk is. In de praktijk worden veel opiniepeilingen per telefoon uitgevoerd, waardoor de steekproef op verschillende manieren wordt vertekend, onder meer door uitsluiting van mensen die geen telefoon hebben, door de voorkeur te geven aan mensen die meer dan één telefoon hebben, door de voorkeur te geven aan mensen die bereid zijn deel te nemen aan een telefonische enquête boven degenen die weigeren, enz. Niet-random steekproeftrekking maakt de geschatte fout onbetrouwbaar.
Aan de andere kant kunnen mensen van mening zijn dat statistieken inherent onbetrouwbaar zijn omdat niet iedereen wordt gebeld, of omdat zij zelf nooit worden ondervraagd. Mensen kunnen denken dat het onmogelijk is om gegevens te krijgen over de mening van tientallen miljoenen mensen door slechts een paar duizend mensen te ondervragen. Ook dat is onjuist. Een opiniepeiling met een perfecte onbevooroordeelde steekproeftrekking en waarheidsgetrouwe antwoorden heeft een wiskundig bepaalde foutenmarge, die alleen afhangt van het aantal ondervraagden.
Vaak wordt voor een enquête echter slechts één foutenmarge gerapporteerd. Wanneer de resultaten worden gerapporteerd voor subgroepen van de bevolking, zal een grotere foutenmarge gelden, maar dit wordt niet altijd duidelijk gemaakt. Een enquête onder 1000 personen kan bijvoorbeeld 100 personen uit een bepaalde etnische of economische groep omvatten. De resultaten die op die groep zijn toegespitst, zullen veel minder betrouwbaar zijn dan de resultaten voor de gehele bevolking. Als de foutenmarge voor de volledige steekproef bijvoorbeeld 4% was, dan zou de foutenmarge voor zo’n subgroep ongeveer 13% kunnen zijn.
Er zijn ook veel andere meetproblemen bij bevolkingsonderzoeken.
De hierboven genoemde problemen gelden voor alle statistische experimenten, niet alleen voor bevolkingsonderzoeken.
Valse causaliteitEdit
Wanneer een statistische test een correlatie tussen A en B aantoont, zijn er gewoonlijk zes mogelijkheden:
- A veroorzaakt B.
- B veroorzaakt A.
- A en B veroorzaken elkaar beide ten dele.
- A en B worden beide veroorzaakt door een derde factor, C.
- B wordt veroorzaakt door C die met A gecorreleerd is.
- De waargenomen correlatie is het gevolg van louter toeval.
De zesde mogelijkheid kan worden gekwantificeerd door statistische tests die de kans kunnen berekenen dat de waargenomen correlatie zo groot zou zijn als zij louter door toeval is, indien er in feite geen verband bestaat tussen de variabelen. Maar zelfs als die mogelijkheid een kleine waarschijnlijkheid heeft, dan zijn er nog de vijf andere.
Als het aantal mensen dat ijs koopt op het strand statistisch gerelateerd is aan het aantal mensen dat verdrinkt op het strand, dan zou niemand beweren dat ijs verdrinking veroorzaakt omdat het duidelijk is dat het niet zo is. (In dit geval zijn zowel verdrinking als het kopen van ijsjes duidelijk gerelateerd door een derde factor: het aantal mensen op het strand).
Deze drogreden kan bijvoorbeeld worden gebruikt om te bewijzen dat blootstelling aan een chemische stof kanker veroorzaakt. Vervang “aantal mensen dat ijs koopt” door “aantal mensen dat is blootgesteld aan chemische stof X”, en “aantal mensen dat verdrinkt” door “aantal mensen dat kanker krijgt”, en veel mensen zullen je geloven. In een dergelijke situatie kan er sprake zijn van een statistische correlatie, ook al is er geen echt effect. Als bijvoorbeeld de perceptie bestaat dat een chemisch terrein “gevaarlijk” is (ook al is dat in werkelijkheid niet zo), zal de waarde van onroerend goed in het gebied dalen, waardoor meer gezinnen met een laag inkomen geneigd zullen zijn om naar dat gebied te verhuizen. Als gezinnen met een laag inkomen meer kans hebben om kanker te krijgen dan gezinnen met een hoog inkomen (bijvoorbeeld door een slechter dieet of minder toegang tot medische zorg), dan zal het aantal kankergevallen stijgen, ook al is de chemische stof zelf niet gevaarlijk. Men gelooft dat dit precies is wat er gebeurde met enkele van de vroege studies die een verband aantoonden tussen EMV (elektromagnetische velden) van elektriciteitsleidingen en kanker.
In goed opgezette studies kan het effect van valse causaliteit worden geëlimineerd door sommige mensen willekeurig in een “behandelingsgroep” en sommige mensen in een “controlegroep” in te delen, en de behandelingsgroep de behandeling te geven en de controlegroep de behandeling niet te geven. In het bovenstaande voorbeeld kan een onderzoeker een groep mensen blootstellen aan chemische stof X en een tweede groep niet blootstellen. Als de eerste groep meer kanker krijgt, weet de onderzoeker dat er geen derde factor is die van invloed is op de vraag of iemand is blootgesteld, omdat hij heeft gecontroleerd wie wel of niet is blootgesteld, en hij mensen willekeurig heeft ingedeeld in de blootgestelde en de niet-blootgestelde groep. Bij veel toepassingen is het echter onbetaalbaar, onuitvoerbaar, onethisch, illegaal of ronduit onmogelijk om een experiment op deze manier uit te voeren. Het is bijvoorbeeld hoogst onwaarschijnlijk dat een IRB een experiment zou goedkeuren waarbij mensen opzettelijk worden blootgesteld aan een gevaarlijke stof om de toxiciteit ervan te testen. De voor de hand liggende ethische implicaties van dergelijke experimenten beperken de mogelijkheden van onderzoekers om causaliteit empirisch te testen.
Bewijs van de nulhypotheseEdit
In een statistische test wordt de nulhypothese ( H 0 {\displaystyle H_{0}}
) als geldig beschouwd totdat genoeg gegevens aantonen dat deze onjuist is. Dan geldt H 0 {Displaystyle H_{0}}
verworpen en wordt de alternatieve hypothese ( H A {Displaystyle H_{A}}
) geacht te zijn bewezen als juist. Bij toeval kan dit gebeuren, hoewel H 0 {{0}
waar is, met een waarschijnlijkheid die α {{0}}}
(het significantieniveau). Dit kan worden vergeleken met de rechtsgang, waarin de verdachte onschuldig wordt geacht ( H 0 {H0}}
) totdat het tegendeel is bewezen ( H A {H0}}
) buiten redelijke twijfel ( α {H0}}
).
Maar als de gegevens niet voldoende bewijs leveren om te verwerpen dat H 0 {\displaystyle H_{0}}
, bewijst dit niet automatisch dat H 0 {\displaystyle H_{0}}
juist is. Als een tabaksproducent bijvoorbeeld wil aantonen dat zijn producten veilig zijn, kan hij gemakkelijk een test uitvoeren met een kleine steekproef van rokers tegenover een kleine steekproef van niet-rokers. Het is onwaarschijnlijk dat een van hen longkanker krijgt (en zelfs als dat gebeurt, moet het verschil tussen de groepen erg groot zijn om H 0 te verwerpen {Displaystyle H_{0}}
). Daarom is het waarschijnlijk – zelfs als roken gevaarlijk is – dat onze test H 0 {\displaystyle H_{0}}
. Als H 0 {Displaystyle H_{0}}
wordt aanvaard, volgt hieruit niet automatisch dat roken onschadelijk is gebleken. De test heeft onvoldoende power om H 0 {\displaystyle H_{0}} te verwerpen
, dus de test is nutteloos en de waarde van het “bewijs” van H 0 {\displaystyle H_{0}}
is ook nihil.
Dit kan – met gebruikmaking van de gerechtelijke analogie hierboven – worden vergeleken met de echt schuldige verdachte die wordt vrijgelaten alleen omdat het bewijs niet voldoende is voor een schuldigverklaring. Dit bewijst niet dat de verdachte onschuldig is, maar alleen dat er niet genoeg bewijs is voor een schuldig vonnis.
“…de nulhypothese wordt nooit bewezen of vastgesteld, maar zij wordt mogelijk weerlegd, in de loop van het experimenteren. Van elk experiment kan worden gezegd dat het alleen bestaat om de feiten een kans te geven de nulhypothese te weerleggen.” (Fisher in The Design of Experiments) Er zijn veel redenen voor verwarring, waaronder het gebruik van dubbele negatieve logica en terminologie die het gevolg is van de samenvoeging van Fisher’s “significantietests” (waarbij de nulhypothese nooit wordt aanvaard) met “hypothesetests” (waarbij een of andere hypothese altijd wordt aanvaard).
Verwarring van statistische significantie met praktische significantieEdit
Statistische significantie is een maat voor waarschijnlijkheid; praktische significantie is een maat voor effect. Een remedie tegen kaalheid is statistisch significant als een dun perzikpluisje gewoonlijk de voorheen kale hoofdhuid bedekt. De remedie is praktisch significant als een muts niet langer nodig is bij koud weer en de kapper vraagt hoeveel er van de bovenkant af moet. De kaalkopjes willen een geneesmiddel dat zowel statistisch als praktisch significant is; het zal waarschijnlijk werken en als het werkt, zal het een groot harig effect hebben. Wetenschappelijke publicatie vereist vaak alleen statistische significantie. Dit heeft (de laatste 50 jaar) geleid tot klachten dat statistische significantie toetsen een verkeerd gebruik van statistiek is.
Data dredgingEdit
Data dredging is een misbruik van datamining. Bij data dredging worden grote verzamelingen gegevens onderzocht om een correlatie te vinden, zonder dat vooraf een hypothese is gekozen die moet worden getoetst. Aangezien het vereiste betrouwbaarheidsinterval om een verband tussen twee parameters vast te stellen gewoonlijk op 95% wordt gesteld (hetgeen betekent dat er 95% kans is dat het waargenomen verband niet aan het toeval te wijten is), is er dus 5% kans om een correlatie te vinden tussen twee reeksen volledig willekeurige variabelen. Aangezien bij het uitbaggeren van gegevens doorgaans grote gegevensreeksen met veel variabelen, en dus nog meer variabelenparen, worden onderzocht, is het vrijwel zeker dat bij een dergelijk onderzoek onechte maar schijnbaar statistisch significante resultaten worden gevonden.
Merk op dat het uitbaggeren van gegevens een geldige manier is om een mogelijke hypothese te vinden, maar dat die hypothese vervolgens moet worden getest met gegevens die bij het oorspronkelijke uitbaggeren niet zijn gebruikt. Het misbruik ontstaat wanneer die hypothese als feit wordt gesteld zonder verdere validatie.
“Je kunt een hypothese niet legitiem testen op dezelfde gegevens die eerst die hypothese suggereerden. De remedie is duidelijk. Als je eenmaal een hypothese hebt, ontwerp dan een studie om specifiek te zoeken naar het effect waarvan je nu denkt dat het er is. Als het resultaat van deze test statistisch significant is, heb je eindelijk echt bewijs.”
GegevensmanipulatieEdit
Informeel “gesjoemel met de gegevens” genoemd, omvat deze praktijk selectieve rapportage (zie ook publicatievooringenomenheid) en zelfs het eenvoudigweg verzinnen van onjuiste gegevens.
Voorbeelden van selectieve rapportage zijn er in overvloed. De gemakkelijkste en meest voorkomende voorbeelden zijn het kiezen van een groep resultaten die een patroon volgen dat consistent is met de gewenste hypothese, terwijl andere resultaten of “gegevensreeksen” die de hypothese tegenspreken, worden genegeerd.
Psychische onderzoekers betwisten al lang studies waarin mensen met ESP-vermogen worden aangetoond. Critici beschuldigen voorstanders van ESP ervan alleen experimenten met positieve resultaten te publiceren en die met negatieve resultaten terzijde te schuiven. Een “positief resultaat” is een testrun (of datarun) waarbij de proefpersoon een verborgen kaart enz. raadt met een veel hogere frequentie dan het toeval.
Wetenschappers trekken in het algemeen de geldigheid in twijfel van studieresultaten die niet door andere onderzoekers kunnen worden gereproduceerd. Sommige wetenschappers weigeren echter hun gegevens en methoden te publiceren.
Gegevensmanipulatie is een ernstige zaak/overweging bij de meest eerlijke statistische analyses. Uitschieters, ontbrekende gegevens en niet-normaliteit kunnen allemaal de geldigheid van statistische analyses negatief beïnvloeden. Het is aangewezen de gegevens te bestuderen en echte problemen te herstellen voordat de analyse begint. “n elk spreidingsdiagram zullen er enkele punten zijn die min of meer losstaan van het hoofddeel van de wolk: deze punten moeten alleen om reden worden verworpen.”
Andere drogredenenEdit
Pseudoreplicatie is een technische fout die samenhangt met variantieanalyse. De complexiteit verbergt het feit dat de statistische analyse wordt geprobeerd op een enkele steekproef (N=1). Voor dit gedegenereerde geval kan de variantie niet worden berekend (deling door nul). Een (N=1) zal de onderzoeker altijd de hoogste statistische correlatie geven tussen voorbedachte rade en feitelijke bevindingen.
De ‘gambler’s fallacy’ gaat ervan uit dat een gebeurtenis waarvoor een toekomstige waarschijnlijkheid kan worden gemeten, dezelfde waarschijnlijkheid heeft om plaats te vinden als hij al heeft plaatsgehad. Als iemand dus al 9 munten heeft opgegooid en elke munt was kop, zijn mensen geneigd aan te nemen dat de kans dat een tiende opgooi ook kop is 1023 tegen 1 is (wat het was voordat de eerste munt werd opgegooid), terwijl de kans dat de tiende kop is in feite 50% is (aangenomen dat de munt onpartijdig is).
De prosecutor’s fallacy heeft er in het Verenigd Koninkrijk toe geleid dat Sally Clark ten onrechte werd veroordeeld voor de moord op haar twee zonen. In de rechtszaal werd de lage statistische waarschijnlijkheid (1 op 73 miljoen) dat de twee kinderen van een vrouw zouden overlijden aan het Sudden Infant Death Syndrome, gegeven door professor Sir Roy Meadow, verkeerd geïnterpreteerd om een lage waarschijnlijkheid van haar onschuld te suggereren. Zelfs indien de gegeven waarschijnlijkheid van een dubbele SIDS, die later door het Koninklijk Statistisch Genootschap in twijfel werd getrokken, juist zou zijn, moet men alle mogelijke verklaringen tegen elkaar afwegen om tot een conclusie te komen over welke de meest waarschijnlijke oorzaak is van de onverklaarbare dood van de twee kinderen. Uit de beschikbare gegevens blijkt dat de kansen voor een dubbele dood door SIDS negen keer groter zijn dan voor een dubbele dood door moord”. De veroordeling van Sally Clark werd uiteindelijk vernietigd.
De ludieke denkfout. Waarschijnlijkheden zijn gebaseerd op eenvoudige modellen die geen rekening houden met reële (zij het verre) mogelijkheden. Pokerspelers houden er geen rekening mee dat een tegenstander een pistool kan trekken in plaats van een kaart. Verzekerden (en overheden) gaan ervan uit dat verzekeraars solvabel blijven, maar zie AIG en systeemrisico’s.
Andere vormen van misbruikEdit
Andere vormen van misbruik zijn het vergelijken van appels en peren, het gebruik van het verkeerde gemiddelde, regressie naar het gemiddelde, en de overkoepelende uitdrukking garbage in, garbage out. Sommige statistieken zijn gewoon irrelevant voor een kwestie.
Anscombe’s kwartet is een verzonnen dataset die de tekortkomingen van eenvoudige beschrijvende statistieken illustreert (en de waarde van het plotten van gegevens vóór numerieke analyse).