Ungünstige Beobachtungen verwerfenBearbeiten

Siehe auch: Publikationsverzerrung

Um ein neutrales (nutzloses) Produkt zu bewerben, muss ein Unternehmen nur z. B. 40 Studien mit einem Konfidenzniveau von 95 % finden oder durchführen. Wenn das Produkt wirklich nutzlos ist, würde dies im Durchschnitt eine Studie ergeben, die zeigt, dass das Produkt nützlich ist, eine Studie, die zeigt, dass es schädlich ist und achtunddreißig nicht schlüssige Studien (38 sind 95% von 40). Diese Taktik ist umso wirksamer, je mehr Studien verfügbar sind. Organisationen, die nicht alle von ihnen durchgeführten Studien veröffentlichen, wie z. B. Tabakunternehmen, die einen Zusammenhang zwischen Rauchen und Krebs leugnen, Anti-Raucher-Gruppen und Medien, die versuchen, einen Zusammenhang zwischen Rauchen und verschiedenen Krankheiten zu beweisen, oder Verkäufer von Wunderpillen, werden diese Taktik wahrscheinlich anwenden.

Ronald Fisher hat dieses Problem in seinem berühmten Teebeispiel-Experiment mit einer Dame (aus seinem Buch The Design of Experiments von 1935) berücksichtigt. In Bezug auf wiederholte Experimente sagte er: „Es wäre eindeutig illegitim und würde unserer Berechnung die Grundlage entziehen, wenn nicht alle erfolglosen Ergebnisse in die Berechnung einfließen würden.“

Ein anderer Begriff, der mit diesem Konzept zusammenhängt, ist Rosinenpickerei.

Ignorieren wichtiger MerkmaleBearbeiten

Multivariable Datensätze haben zwei oder mehr Merkmale/Dimensionen. Wenn zu wenige dieser Merkmale für die Analyse ausgewählt werden (z. B. wenn nur ein Merkmal ausgewählt und eine einfache lineare Regression anstelle einer multiplen linearen Regression durchgeführt wird), können die Ergebnisse irreführend sein. Dies macht den Analytiker anfällig für verschiedene statistische Paradoxa oder in einigen (nicht allen) Fällen für falsche Kausalität, wie unten dargestellt.

Geladene FragenBearbeiten

Hauptartikel: Geladene Frage

Die Antworten auf Umfragen können oft manipuliert werden, indem die Frage so formuliert wird, dass der Befragte eine bestimmte Antwort bevorzugt. Bei Umfragen zur Unterstützung eines Krieges beispielsweise werden die Fragen:

  • Unterstützen Sie den Versuch der USA, Freiheit und Demokratie in andere Teile der Welt zu bringen?
  • Unterstützen Sie die unprovozierte Militäraktion der USA?

wahrscheinlich zu Daten führen, die in unterschiedliche Richtungen verzerrt sind, obwohl sie beide die Unterstützung für den Krieg abfragen. Eine bessere Formulierung der Frage könnte lauten: „Unterstützen Sie die derzeitigen Militäraktionen der USA im Ausland?“ Eine noch neutralere Formulierung wäre: „Was halten Sie von den derzeitigen Militäraktionen der USA im Ausland?“ Der Punkt sollte sein, dass die befragte Person keine Möglichkeit hat, anhand des Wortlauts zu erraten, was der Fragesteller hören möchte.

Eine weitere Möglichkeit ist, der Frage Informationen voranzustellen, die die „gewünschte“ Antwort unterstützen. Beispielsweise werden wahrscheinlich mehr Menschen auf die Frage „Befürworten Sie angesichts der zunehmenden Steuerlast für Familien der Mittelschicht Senkungen der Einkommenssteuer?“ mit „Ja“ antworten als auf die Frage „Befürworten Sie angesichts des steigenden Defizits im Bundeshaushalt und des dringenden Bedarfs an mehr Einnahmen Senkungen der Einkommenssteuer?“

Die richtige Formulierung von Fragen kann sehr subtil sein. Die Antworten auf zwei Fragen können sich dramatisch unterscheiden, je nachdem, in welcher Reihenfolge sie gestellt werden. Eine Umfrage, in der nach dem „Besitz von Aktien“ gefragt wurde, ergab, dass die meisten texanischen Rancher Aktien besaßen, wenn auch wahrscheinlich nicht die Art, die an der New Yorker Börse gehandelt wird.“

ÜbergeneralisierungBearbeiten

Übergeneralisierung ist ein Trugschluss, der auftritt, wenn behauptet wird, dass eine statistische Aussage über eine bestimmte Population auch für die Mitglieder einer Gruppe gilt, für die die ursprüngliche Population keine repräsentative Stichprobe ist.

Angenommen, 100 % der Äpfel sind im Sommer rot. Die Behauptung „Alle Äpfel sind rot“ wäre ein Fall von Übergeneralisierung, weil die ursprüngliche Statistik nur für eine bestimmte Untergruppe von Äpfeln (die im Sommer) gilt, von der man nicht annimmt, dass sie für die Gesamtpopulation der Äpfel repräsentativ ist.

Ein reales Beispiel für den Übergeneralisierungsfehler kann als Artefakt moderner Umfragetechniken beobachtet werden, die das Anrufen von Mobiltelefonen für telefonische politische Umfragen verbieten. Da junge Menschen mit größerer Wahrscheinlichkeit als andere demografische Gruppen kein herkömmliches Festnetztelefon besitzen, kann eine Telefonumfrage, bei der ausschließlich Befragte mit Festnetztelefonen befragt werden, dazu führen, dass die Ansichten junger Menschen in den Umfrageergebnissen zu wenig berücksichtigt werden, wenn keine anderen Maßnahmen ergriffen werden, um diese Verzerrung der Stichprobe auszugleichen. So kann eine Umfrage, die die Wahlpräferenzen junger Menschen mit dieser Technik untersucht, keine vollkommen genaue Darstellung der wahren Wahlpräferenzen junger Menschen als Ganzes sein, ohne dass es zu einer Übergeneralisierung kommt, weil die verwendete Stichprobe junge Menschen ausschließt, die nur Mobiltelefone mit sich führen, die möglicherweise Wahlpräferenzen haben, die sich vom Rest der Bevölkerung unterscheiden.

Übergeneralisierung tritt häufig auf, wenn Informationen durch nichttechnische Quellen, insbesondere Massenmedien, weitergegeben werden.

Verzerrte StichprobenBearbeiten

Hauptartikel: Verzerrte Stichprobe

Wissenschaftler haben mit großem Aufwand gelernt, dass es schwierig ist, gute experimentelle Daten für die statistische Analyse zu sammeln. Beispiel: Der Placebo-Effekt (Geist über Körper) ist sehr stark. 100 % der Versuchspersonen bekamen einen Ausschlag, wenn sie einer inerten Substanz ausgesetzt wurden, die fälschlicherweise als Giftefeu bezeichnet wurde, während nur wenige einen Ausschlag bei einem „harmlosen“ Gegenstand bekamen, der in Wirklichkeit Giftefeu war. Forscher bekämpfen diesen Effekt durch doppelblinde, randomisierte und vergleichende Experimente. Statistiker machen sich in der Regel mehr Gedanken über die Gültigkeit der Daten als über die Analyse. Dies spiegelt sich in einem Studienbereich innerhalb der Statistik wider, der als Versuchsplanung bekannt ist.

Die Meinungsforscher haben mit großem Aufwand gelernt, dass es schwierig ist, gute Umfragedaten für die statistische Analyse zu sammeln. Die selektive Wirkung von Mobiltelefonen auf die Datenerhebung (die im Abschnitt „Übergeneralisierung“ erörtert wird) ist ein mögliches Beispiel; wenn junge Menschen mit herkömmlichen Telefonen nicht repräsentativ sind, kann die Stichprobe verzerrt sein. Stichprobenerhebungen haben viele Tücken und erfordern große Sorgfalt bei der Durchführung. Bei einem Versuch waren fast 3000 Telefonanrufe erforderlich, um 1000 Antworten zu erhalten. Die einfache Zufallsstichprobe der Bevölkerung „ist nicht einfach und möglicherweise nicht zufällig.“

Falsche Angabe oder Missverständnis des geschätzten FehlersEdit

Wenn ein Forschungsteam wissen will, wie 300 Millionen Menschen über ein bestimmtes Thema denken, wäre es unpraktisch, alle zu befragen. Wenn das Team jedoch eine Zufallsstichprobe von etwa 1000 Personen auswählt, kann es ziemlich sicher sein, dass die Ergebnisse dieser Gruppe repräsentativ sind für das, was die größere Gruppe gesagt hätte, wenn sie alle befragt worden wären.

Dieses Vertrauen kann durch das zentrale Grenzwertsatz und andere mathematische Ergebnisse quantifiziert werden. Die Konfidenz wird als Wahrscheinlichkeit ausgedrückt, dass das wahre Ergebnis (für die größere Gruppe) innerhalb eines bestimmten Bereichs der Schätzung (der Zahl für die kleinere Gruppe) liegt. Dies ist der „Plus- oder Minuswert“, der bei statistischen Erhebungen häufig angegeben wird. Der Wahrscheinlichkeitsanteil des Konfidenzniveaus wird in der Regel nicht erwähnt; wenn doch, wird davon ausgegangen, dass es sich um eine Standardzahl wie 95 % handelt.

Die beiden Zahlen sind miteinander verbunden. Wenn eine Umfrage einen geschätzten Fehler von ±5% bei 95%iger Konfidenz aufweist, hat sie auch einen geschätzten Fehler von ±6,6% bei 99%iger Konfidenz. ± x {\displaystyle x}

% bei 95%iger Sicherheit ist immer ± 1,32 x {\displaystyle 1,32x}

% bei 99% Konfidenzniveau für eine normalverteilte Grundgesamtheit.

Je kleiner der geschätzte Fehler ist, desto größer ist die erforderliche Stichprobe bei einem bestimmten Konfidenzniveau.

bei 95,4% Konfidenz:

±1% würde 10.000 Personen erfordern.
±2% würde 2.500 Personen erfordern.
±3% würde 1.111 Personen erfordern.
±4% würde 625 Personen erfordern.
±5% würde 400 Personen erfordern.
±10% würde 100 Personen erfordern.
±20% würde 25 Personen erfordern.
±25% würde 16 Personen erfordern.
±50% würde 4 Personen erfordern.

Da die Konfidenzzahl weggelassen wird, kann man davon ausgehen, dass es eine 100%ige Sicherheit gibt, dass das wahre Ergebnis innerhalb des geschätzten Fehlers liegt. Dies ist mathematisch nicht korrekt.

Viele Menschen sind sich vielleicht nicht bewusst, dass die Zufälligkeit der Stichprobe sehr wichtig ist. In der Praxis werden viele Meinungsumfragen per Telefon durchgeführt, was die Stichprobe auf verschiedene Weise verzerrt, z. B. durch den Ausschluss von Personen, die kein Telefon besitzen, durch die Bevorzugung von Personen, die mehr als ein Telefon besitzen, durch die Bevorzugung von Personen, die bereit sind, an einer Telefonumfrage teilzunehmen, gegenüber Personen, die sich weigern usw. Nicht zufällige Stichproben machen den geschätzten Fehler unzuverlässig.

Andererseits kann man der Meinung sein, dass Statistiken von Natur aus unzuverlässig sind, weil nicht jeder angerufen wird oder weil man selbst nie befragt wird. Man könnte meinen, dass es unmöglich ist, die Meinung von Dutzenden von Millionen Menschen zu erfahren, wenn man nur ein paar Tausend befragt. Auch das ist unzutreffend. Eine Umfrage mit vollkommen unvoreingenommenen Stichproben und wahrheitsgemäßen Antworten hat eine mathematisch ermittelte Fehlermarge, die nur von der Anzahl der befragten Personen abhängt.

Häufig wird jedoch nur eine Fehlermarge für eine Umfrage angegeben. Werden die Ergebnisse für Teilgruppen der Bevölkerung angegeben, gilt eine größere Fehlermarge, was aber möglicherweise nicht deutlich gemacht wird. So können beispielsweise in einer Umfrage unter 1000 Personen 100 Personen aus einer bestimmten ethnischen oder wirtschaftlichen Gruppe enthalten sein. Die Ergebnisse, die sich auf diese Gruppe konzentrieren, werden viel weniger zuverlässig sein als die Ergebnisse für die Gesamtbevölkerung. Wenn die Fehlermarge für die gesamte Stichprobe z.B. 4% beträgt, könnte die Fehlermarge für eine solche Untergruppe etwa 13% betragen.

Es gibt auch viele andere Messprobleme bei Bevölkerungsumfragen.

Die oben genannten Probleme gelten für alle statistischen Experimente, nicht nur für Bevölkerungsumfragen.

Weitere Informationen: Meinungsumfrage und statistische Erhebung

Falsche KausalitätBearbeiten

Hauptartikel: Korrelation impliziert keine Kausalität

Wenn ein statistischer Test eine Korrelation zwischen A und B zeigt, gibt es in der Regel sechs Möglichkeiten:

  1. A verursacht B.
  2. B verursacht A.
  3. A und B verursachen sich beide teilweise gegenseitig.
  4. A und B werden beide durch einen dritten Faktor, C, verursacht.
  5. B wird durch C verursacht, das mit A korreliert ist.
  6. Die beobachtete Korrelation ist rein zufällig.

Die sechste Möglichkeit kann durch statistische Tests quantifiziert werden, mit denen die Wahrscheinlichkeit berechnet werden kann, dass die beobachtete Korrelation so groß ist, wie sie rein zufällig ist, wenn es tatsächlich keine Beziehung zwischen den Variablen gibt. Aber selbst wenn diese Möglichkeit eine geringe Wahrscheinlichkeit hat, gibt es immer noch die fünf anderen.

Wenn die Anzahl der Leute, die am Strand Eis kaufen, statistisch mit der Anzahl der Leute, die am Strand ertrinken, zusammenhängt, dann würde niemand behaupten, dass Eiscreme das Ertrinken verursacht, weil es offensichtlich ist, dass es nicht so ist. (In diesem Fall sind sowohl das Ertrinken als auch der Kauf von Eiscreme eindeutig durch einen dritten Faktor bedingt: die Anzahl der Menschen am Strand).

Dieser Trugschluss kann zum Beispiel verwendet werden, um zu beweisen, dass die Exposition gegenüber einer Chemikalie Krebs verursacht. Ersetzen Sie „Anzahl der Menschen, die Eiscreme kaufen“ durch „Anzahl der Menschen, die der Chemikalie X ausgesetzt sind“, und „Anzahl der Menschen, die ertrinken“ durch „Anzahl der Menschen, die Krebs bekommen“, und viele Menschen werden Ihnen glauben. In einer solchen Situation kann es eine statistische Korrelation geben, auch wenn es keine realen Auswirkungen gibt. Wenn z. B. ein Chemiestandort als „gefährlich“ wahrgenommen wird (auch wenn er es in Wirklichkeit nicht ist), sinken die Immobilienwerte in der Gegend, was mehr Familien mit niedrigem Einkommen dazu veranlasst, in diese Gegend zu ziehen. Wenn Familien mit niedrigem Einkommen eher an Krebs erkranken als Familien mit hohem Einkommen (z. B. aufgrund einer schlechteren Ernährung oder eines schlechteren Zugangs zu medizinischer Versorgung), steigt die Krebsrate, auch wenn die Chemikalie selbst nicht gefährlich ist. Es wird vermutet, dass genau dies bei einigen der frühen Studien geschah, die einen Zusammenhang zwischen EMF (elektromagnetischen Feldern) von Hochspannungsleitungen und Krebs aufzeigten.

In gut konzipierten Studien kann der Effekt der falschen Kausalität beseitigt werden, indem einige Personen nach dem Zufallsprinzip in eine „Behandlungsgruppe“ und einige Personen in eine „Kontrollgruppe“ eingeteilt werden, wobei die Behandlungsgruppe die Behandlung erhält und die Kontrollgruppe nicht. Im obigen Beispiel könnte ein Forscher eine Gruppe von Personen der Chemikalie X aussetzen und eine zweite Gruppe unbehandelt lassen. Wenn die erste Gruppe höhere Krebsraten aufweist, weiß der Forscher, dass es keinen dritten Faktor gibt, der die Exposition einer Person beeinflusst hat, da er kontrolliert hat, wer exponiert war und wer nicht, und er hat die Personen nach dem Zufallsprinzip der exponierten und der nicht exponierten Gruppe zugeordnet. Bei vielen Anwendungen ist die Durchführung eines solchen Experiments jedoch entweder unerschwinglich teuer, undurchführbar, unethisch, illegal oder schlichtweg unmöglich. Es ist zum Beispiel sehr unwahrscheinlich, dass ein IRB ein Experiment akzeptieren würde, bei dem Menschen absichtlich einer gefährlichen Substanz ausgesetzt werden, um deren Toxizität zu testen. Die offensichtlichen ethischen Implikationen solcher Arten von Experimenten schränken die Möglichkeiten der Forscher ein, Kausalität empirisch zu testen.

Beweis der NullhypotheseBearbeiten

In einem statistischen Test wird die Nullhypothese ( H 0 {\displaystyle H_{0}}

) als gültig angesehen, bis genügend Daten sie widerlegen. Dann ist H 0 {\displaystyle H_{0}}

verworfen und die Alternativhypothese ( H A {\displaystyle H_{A}}

) gilt als bewiesen. Dies kann zufällig geschehen, obwohl H 0 {\displaystyle H_{0}}

wahr ist, mit einer Wahrscheinlichkeit, die mit α {\displaystyle \alpha }

(das Signifikanzniveau). Dies kann mit dem Gerichtsverfahren verglichen werden, bei dem der Angeklagte als unschuldig gilt ( H 0 {\displaystyle H_{0}}

), bis seine Schuld ( H A {\displaystyle H_{A}}

) zweifelsfrei bewiesen ist ( α {\displaystyle \alpha }

).

Wenn uns die Daten aber nicht genügend Beweise liefern, um H 0 {\displaystyle H_{0}}

, beweist dies nicht automatisch, dass H 0 {\displaystyle H_{0}}

richtig ist. Wenn zum Beispiel ein Tabakhersteller nachweisen möchte, dass seine Produkte sicher sind, kann er leicht einen Test mit einer kleinen Stichprobe von Rauchern und einer kleinen Stichprobe von Nichtrauchern durchführen. Es ist unwahrscheinlich, dass einer von ihnen Lungenkrebs entwickelt (und selbst wenn, muss der Unterschied zwischen den Gruppen sehr groß sein, um H 0 {\displaystyle H_{0}}

). Daher ist es wahrscheinlich – selbst wenn Rauchen gefährlich ist -, dass unser Test H 0 {\displaystyle H_{0}} nicht zurückweist

. Wenn H 0 {\displaystyle H_{0}}

angenommen wird, folgt daraus nicht automatisch, dass das Rauchen nachweislich harmlos ist. Der Test hat keine ausreichende Aussagekraft, um H 0 {\displaystyle H_{0}}

, so dass der Test nutzlos ist und der Wert des „Beweises“ von H 0 {\displaystyle H_{0}}

ist ebenfalls null.

Dies kann – in Anlehnung an die obige juristische Analogie – mit dem wirklich schuldigen Angeklagten verglichen werden, der nur deshalb freigelassen wird, weil die Beweise für einen Schuldspruch nicht ausreichen. Das beweist nicht die Unschuld des Angeklagten, sondern nur, dass die Beweise für einen Schuldspruch nicht ausreichen.

„…die Nullhypothese wird im Laufe eines Experiments nie bewiesen oder festgestellt, aber sie wird möglicherweise widerlegt. Man kann sagen, dass jedes Experiment nur deshalb existiert, um den Fakten eine Chance zu geben, die Nullhypothese zu widerlegen.“ (Fisher in The Design of Experiments) Es gibt viele Gründe für die Verwirrung, einschließlich der Verwendung der doppelt negativen Logik und der Terminologie, die aus der Verschmelzung von Fishers „Signifikanztests“ (bei denen die Nullhypothese nie akzeptiert wird) mit „Hypothesentests“ (bei denen eine Hypothese immer akzeptiert wird) resultiert.

Verwechslung von statistischer Signifikanz mit praktischer SignifikanzEdit

Statistische Signifikanz ist ein Maß für die Wahrscheinlichkeit; praktische Signifikanz ist ein Maß für die Wirkung. Eine Heilung von Kahlheit ist statistisch signifikant, wenn ein spärlicher Pfirsichflaum die vorher nackte Kopfhaut bedeckt. Praktisch signifikant ist die Kur, wenn bei kaltem Wetter kein Hut mehr nötig ist und der Friseur fragt, wie viel er abnehmen soll. Die Kahlköpfigen wollen ein Mittel, das sowohl statistisch als auch praktisch signifikant ist: Es wird wahrscheinlich funktionieren, und wenn es funktioniert, wird es einen großen haarigen Effekt haben. Bei wissenschaftlichen Veröffentlichungen wird oft nur die statistische Signifikanz verlangt. Dies hat (in den letzten 50 Jahren) zu Beschwerden geführt, dass statistische Signifikanztests ein Missbrauch der Statistik sind.

Data dredgingEdit

Main article: Data Dredging

Data Dredging ist ein Missbrauch von Data Mining. Beim Data Dredging werden große Datenmengen untersucht, um eine Korrelation zu finden, ohne dass vorher eine zu prüfende Hypothese festgelegt wird. Da das erforderliche Konfidenzintervall für die Feststellung einer Beziehung zwischen zwei Parametern in der Regel 95 % beträgt (d. h. es besteht eine 95 %ige Chance, dass die beobachtete Beziehung nicht auf einen Zufall zurückzuführen ist), besteht somit eine 5 %ige Chance, eine Korrelation zwischen zwei beliebigen Sätzen völlig zufälliger Variablen zu finden. Da beim Data Dredging in der Regel große Datensätze mit vielen Variablen und damit eine noch größere Anzahl von Variablenpaaren untersucht werden, ist es fast sicher, dass bei einer solchen Studie falsche, aber scheinbar statistisch signifikante Ergebnisse gefunden werden.

Das Data Dredging ist eine gültige Methode, um eine mögliche Hypothese zu finden, aber diese Hypothese muss dann mit Daten getestet werden, die beim ursprünglichen Dredging nicht verwendet wurden. Der Missbrauch entsteht, wenn diese Hypothese ohne weitere Validierung als Tatsache erklärt wird.

„Man kann eine Hypothese nicht legitimerweise mit denselben Daten testen, die diese Hypothese zuerst vorgeschlagen haben. Die Abhilfe ist klar. Sobald Sie eine Hypothese aufgestellt haben, entwerfen Sie eine Studie, um speziell nach dem Effekt zu suchen, von dem Sie jetzt glauben, dass er vorhanden ist. Wenn das Ergebnis dieses Tests statistisch signifikant ist, haben Sie endlich einen echten Beweis.“

DatenmanipulationBearbeiten

Nicht zu verwechseln mit Datenverarbeitung, Datenaufbereitung oder Datenmanipulation, sich überschneidende Begriffe, die oft allgemein als „Datenmanipulation“ bezeichnet werden.

Informell als „Datenmanipulation“ bezeichnet, umfasst diese Praxis die selektive Berichterstattung (siehe auch Publikationsverzerrung) und sogar die einfache Erfindung falscher Daten.

Beispiele für selektive Berichterstattung gibt es viele. Die einfachsten und häufigsten Beispiele sind die Auswahl einer Gruppe von Ergebnissen, die einem Muster folgen, das mit der bevorzugten Hypothese übereinstimmt, während andere Ergebnisse oder „Datenläufe“, die der Hypothese widersprechen, ignoriert werden.

Psychoforscher haben lange Zeit Studien bestritten, die Menschen mit ESP-Fähigkeiten zeigen. Kritiker werfen den Befürwortern der ESP vor, nur Experimente mit positiven Ergebnissen zu veröffentlichen und solche, die negative Ergebnisse zeigen, zu verwerfen. Ein „positives Ergebnis“ ist ein Testlauf (oder Datenlauf), bei dem die Versuchsperson eine versteckte Karte usw. viel häufiger errät als der Zufall.

Wissenschaftler stellen im Allgemeinen die Gültigkeit von Studienergebnissen in Frage, die von anderen Forschern nicht reproduziert werden können. Einige Wissenschaftler weigern sich jedoch, ihre Daten und Methoden zu veröffentlichen.

Datenmanipulation ist ein ernsthaftes Problem/eine ernsthafte Überlegung bei den ehrlichsten statistischen Analysen. Ausreißer, fehlende Daten und Nicht-Normalität können die Gültigkeit der statistischen Analyse beeinträchtigen. Es ist angebracht, die Daten zu untersuchen und echte Probleme zu beheben, bevor die Analyse beginnt. „In jedem Streudiagramm wird es einige Punkte geben, die mehr oder weniger vom Hauptteil der Wolke entfernt sind: Diese Punkte sollten nur aus bestimmten Gründen verworfen werden.“

Andere IrrtümerBearbeiten

Pseudoreplikation ist ein technischer Fehler im Zusammenhang mit der Varianzanalyse. Die Komplexität verbirgt die Tatsache, dass die statistische Analyse an einer einzigen Stichprobe (N=1) durchgeführt wird. Für diesen degenerierten Fall kann die Varianz nicht berechnet werden (Division durch Null). Ein (N=1) wird dem Forscher immer die höchste statistische Korrelation zwischen absichtlicher Voreingenommenheit und tatsächlichen Ergebnissen liefern.

Der Trugschluss des Glücksspielers geht davon aus, dass ein Ereignis, für das eine zukünftige Wahrscheinlichkeit gemessen werden kann, die gleiche Wahrscheinlichkeit hat, einzutreten, wenn es bereits eingetreten ist. Wenn also jemand bereits 9 Münzen geworfen hat und jede davon Kopf zeigt, neigen die Menschen zu der Annahme, dass die Wahrscheinlichkeit, dass auch die zehnte Münze Kopf zeigt, 1023 zu 1 beträgt (was der Fall war, bevor die erste Münze geworfen wurde), während die Wahrscheinlichkeit, dass die zehnte Münze Kopf zeigt, in Wirklichkeit 50 % beträgt (unter der Annahme, dass die Münze unvoreingenommen ist).

Der Trugschluss des Staatsanwalts hat im Vereinigten Königreich dazu geführt, dass Sally Clark zu Unrecht für den Mord an ihren beiden Söhnen verurteilt wurde. Vor Gericht wurde die von Professor Sir Roy Meadow angegebene geringe statistische Wahrscheinlichkeit (1 zu 73 Millionen), dass die beiden Kinder der Frau am Plötzlichen Kindstod sterben, fälschlicherweise als Hinweis auf eine geringe Wahrscheinlichkeit ihrer Unschuld interpretiert. Selbst wenn die angegebene Wahrscheinlichkeit eines doppelten SIDS, die später von der Royal Statistical Society in Frage gestellt wurde, korrekt wäre, muss man alle möglichen Erklärungen gegeneinander abwägen, um zu einer Schlussfolgerung zu gelangen, welche den ungeklärten Tod der beiden Kinder am wahrscheinlichsten verursacht hat. Die verfügbaren Daten legen nahe, dass die Wahrscheinlichkeit für einen doppelten SIDS-Tod im Vergleich zu einem doppelten Mord um das Neunfache höher ist“. Die Verurteilung von Sally Clark wurde schließlich aufgehoben.

Der ludische Trugschluss. Wahrscheinlichkeiten beruhen auf einfachen Modellen, die reale (wenn auch entfernte) Möglichkeiten außer Acht lassen. Pokerspieler ziehen nicht in Betracht, dass ein Gegner eine Waffe statt einer Karte ziehen könnte. Die Versicherten (und die Regierungen) gehen davon aus, dass die Versicherer zahlungsfähig bleiben, aber siehe AIG und das systemische Risiko.

Andere Arten des MissbrauchsBearbeiten

Zu den anderen Missbräuchen gehören der Vergleich von Äpfeln mit Birnen, die Verwendung des falschen Durchschnitts, die Regression zum Mittelwert und die übergreifende Phrase „Garbage in, garbage out“. Manche Statistiken sind für ein Problem einfach irrelevant.

Anscombes Quartett ist ein erfundener Datensatz, der die Unzulänglichkeiten der einfachen deskriptiven Statistik (und den Wert der Datenaufzeichnung vor der numerischen Analyse) veranschaulicht.

admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg