- Odrzucanie niekorzystnych obserwacjiEdit
- Ignorowanie ważnych cechEdit
- Obciążone pytaniaEdit
- OvergeneralizationEdit
- Biased samplesEdit
- Błędne raportowanie lub niezrozumienie szacowanego błęduEdit
- Fałszywa przyczynowośćEdit
- Dowód hipotezy zerowejEdit
- Mylenie istotności statystycznej z istotnością praktycznąEdit
- Data dredgingEdit
- Manipulacja danymiEdit
- Inne błędyEdit
- Inne rodzaje niewłaściwego użyciaEdit
Odrzucanie niekorzystnych obserwacjiEdit
Wszystko, co firma musi zrobić, aby wypromować neutralny (bezużyteczny) produkt, to znaleźć lub przeprowadzić, na przykład, 40 badań z poziomem ufności 95%. Jeśli produkt jest naprawdę bezużyteczny, to średnio dałoby to jedno badanie pokazujące, że produkt jest korzystny, jedno badanie pokazujące, że jest szkodliwy i trzydzieści osiem niejednoznacznych badań (38 to 95% z 40). Taktyka ta staje się tym skuteczniejsza, im więcej badań jest dostępnych. Organizacje, które nie publikują każdego przeprowadzonego badania, takie jak koncerny tytoniowe zaprzeczające istnieniu związku między paleniem a rakiem, grupy antynikotynowe i media starające się udowodnić związek między paleniem a różnymi dolegliwościami lub sprzedawcy cudownych pigułek, prawdopodobnie stosują tę taktykę.
Ronald Fisher rozważył tę kwestię w swoim słynnym eksperymencie dotyczącym przykładu herbaty (z książki The Design of Experiments z 1935 roku). W odniesieniu do powtarzanych eksperymentów powiedział: „Byłoby to wyraźnie nieuprawnione i pozbawiłoby nasze obliczenia ich podstaw, gdyby nieudane wyniki nie zostały wszystkie wzięte pod uwagę.”
Innym terminem związanym z tą koncepcją jest cherry picking.
Ignorowanie ważnych cechEdit
Wielozmienne zbiory danych mają dwie lub więcej cech/wymiarów. Jeśli zbyt mało z tych cech zostanie wybranych do analizy (na przykład, jeśli wybrana zostanie tylko jedna cecha i wykonana zostanie prosta regresja liniowa zamiast wielokrotnej regresji liniowej), wyniki mogą być mylące. Pozostawia to analityka podatnego na dowolny z różnych paradoksów statystycznych, lub w niektórych (nie wszystkich) przypadkach fałszywej przyczynowości, jak poniżej.
Obciążone pytaniaEdit
Odpowiedzi w ankietach mogą być często manipulowane przez sformułowanie pytania w taki sposób, aby wywołać przewagę w kierunku określonej odpowiedzi od respondenta. Na przykład, w ankiecie dotyczącej poparcia dla wojny, pytania:
- Czy popiera Pan(i) próbę wprowadzenia przez USA wolności i demokracji w innych miejscach na świecie?
- Czy popiera Pan(i) niesprowokowaną akcję militarną prowadzoną przez USA?
prawdopodobnie spowodują, że dane będą przechylone w różne strony, mimo że oba pytania dotyczą poparcia dla wojny. Lepszym sposobem sformułowania pytania mogłoby być „Czy popiera Pan(i) obecne działania militarne USA za granicą?”. Jeszcze bardziej neutralnym sposobem sformułowania tego pytania jest „Jaki jest Twój pogląd na temat obecnych działań militarnych USA za granicą?”. Punkt powinien być taki, że osoba pytana nie ma możliwości odgadnięcia na podstawie sformułowania, co pytający może chcieć usłyszeć.
Innym sposobem na to jest poprzedzenie pytania informacją, która wspiera „pożądaną” odpowiedź. Na przykład, więcej osób prawdopodobnie odpowie „tak” na pytanie „Biorąc pod uwagę rosnące obciążenie podatkami rodzin z klasy średniej, czy popierasz cięcia w podatku dochodowym?” niż na pytanie „Biorąc pod uwagę rosnący deficyt budżetu federalnego i rozpaczliwą potrzebę większych dochodów, czy popierasz cięcia w podatku dochodowym?”
Właściwe sformułowanie pytań może być bardzo subtelne. Odpowiedzi na dwa pytania mogą się drastycznie różnić w zależności od kolejności, w jakiej są zadawane. „Ankieta, w której pytano o 'własność akcji’ wykazała, że większość ranczerów z Teksasu posiadała akcje, choć prawdopodobnie nie takie, jakimi handluje się na nowojorskiej giełdzie.”
OvergeneralizationEdit
Overgeneralization jest błędem występującym wtedy, gdy statystyka dotycząca określonej populacji jest twierdzona jako obowiązująca wśród członków grupy, dla której oryginalna populacja nie jest reprezentatywną próbką.
Na przykład, załóżmy, że 100% jabłek jest obserwowanych jako czerwone w lecie. Twierdzenie „Wszystkie jabłka są czerwone” byłoby przypadkiem nadmiernego uogólnienia, ponieważ oryginalna statystyka była prawdziwa tylko dla określonego podzbioru jabłek (tych w lecie), który nie powinien być reprezentatywny dla populacji jabłek jako całości.
Rzeczywisty przykład błędu nadmiernego uogólnienia można zaobserwować jako artefakt nowoczesnych technik sondażowych, które zabraniają dzwonienia na telefony komórkowe w telefonicznych sondażach politycznych. Ponieważ młodzi ludzie są bardziej prawdopodobne niż inne grupy demograficzne, że nie posiadają konwencjonalnego telefonu stacjonarnego, ankieta telefoniczna, która bada wyłącznie respondentów dzwoniących na telefony stacjonarne, może spowodować, że wyniki ankiety będą zaniżone w stosunku do poglądów młodych ludzi, jeśli nie zostaną podjęte żadne inne środki w celu uwzględnienia tego odchylenia w próbkowaniu. Tak więc, ankieta badająca preferencje wyborcze młodych ludzi przy użyciu tej techniki może nie być idealnie dokładną reprezentacją prawdziwych preferencji wyborczych młodych ludzi jako całości bez nadmiernego uogólnienia, ponieważ użyta próba wyklucza młodych ludzi, którzy noszą tylko telefony komórkowe, którzy mogą lub nie mogą mieć preferencji wyborczych, które różnią się od reszty populacji.
Overgeneralization często występuje, gdy informacja jest przekazywana przez nietechniczne źródła, w szczególności mass media.
Biased samplesEdit
Naukowcy nauczyli się wielkim kosztem, że zebranie dobrych danych eksperymentalnych do analizy statystycznej jest trudne. Przykład: Efekt placebo (przewaga umysłu nad ciałem) jest bardzo silny. U 100% badanych wystąpiła wysypka po kontakcie z obojętną substancją, która została fałszywie nazwana trującym bluszczem, podczas gdy u niewielu wystąpiła wysypka po kontakcie z „nieszkodliwym” przedmiotem, który naprawdę był trującym bluszczem. Naukowcy zwalczają ten efekt za pomocą podwójnie ślepych randomizowanych eksperymentów porównawczych. Statystycy zazwyczaj bardziej martwią się o poprawność danych niż o ich analizę. Jest to odzwierciedlone w dziedzinie badań w ramach statystyki znanej jako projektowanie eksperymentów.
Pollsterzy nauczyli się wielkim kosztem, że zbieranie dobrych danych ankietowych do analizy statystycznej jest trudne. Jeśli młodzi ludzie z tradycyjnymi telefonami nie są reprezentatywni, próba może być nieobiektywna. Badania próbne mają wiele pułapek i wymagają dużej staranności w realizacji. Jedno z nich wymagało prawie 3000 rozmów telefonicznych, aby uzyskać 1000 odpowiedzi. Prosta losowa próbka populacji „nie jest prosta i może nie być losowa.”
Błędne raportowanie lub niezrozumienie szacowanego błęduEdit
Jeśli zespół badawczy chce wiedzieć, jak 300 milionów ludzi czuje się w związku z pewnym tematem, niepraktyczne byłoby zapytanie ich wszystkich. Jednakże, jeśli zespół wybierze losową próbkę około 1000 osób, może być dość pewny, że wyniki podane przez tę grupę są reprezentatywne dla tego, co powiedziałaby większa grupa, gdyby wszyscy zostali zapytani.
Tę pewność można faktycznie określić ilościowo za pomocą centralnego twierdzenia granicznego i innych wyników matematycznych. Zaufanie jest wyrażone jako prawdopodobieństwo, że prawdziwy wynik (dla większej grupy) mieści się w pewnym zakresie oszacowania (liczby dla mniejszej grupy). Jest to liczba „plus lub minus” często podawana w badaniach statystycznych. Część prawdopodobieństwa poziomu ufności zwykle nie jest wymieniana; jeśli tak, przyjmuje się, że jest to standardowa liczba, taka jak 95%.
Te dwie liczby są powiązane. Jeśli badanie ma szacowany błąd ±5% przy 95% poziomie ufności, ma również szacowany błąd ±6,6% przy 99% poziomie ufności. ± x {{displaystyle x}
% przy 95% pewności to zawsze ± 1,32 x {{displaystyle 1,32x}
% przy 99% pewności dla populacji o rozkładzie normalnym.
Im mniejszy szacowany błąd, tym większa wymagana próba, przy danym poziomie ufności.
przy 95,4% ufności:
±1% wymagałoby 10 000 osób.
±2% wymagałoby 2 500 osób.
±3% wymagałoby 1 111 osób.
±4% wymagałoby 625 osób.
±5% wymagałoby 400 osób.
±10% wymagałoby 100 osób.
±20% wymagałoby 25 osób.
±25% wymagałoby 16 osób.
±50% wymagałoby 4 osób.
People mogą zakładać, ponieważ pominięto liczbę ufności, że istnieje 100% pewność, że prawdziwy wynik mieści się w oszacowanym błędzie. To nie jest matematycznie poprawne.
Wiele osób może nie zdawać sobie sprawy, że losowość próby jest bardzo ważna. W praktyce wiele badań opinii publicznej jest przeprowadzanych telefonicznie, co zniekształca próbę na kilka sposobów, w tym wykluczenie osób, które nie mają telefonów, faworyzowanie osób, które mają więcej niż jeden telefon, faworyzowanie osób, które są chętne do wzięcia udziału w badaniu telefonicznym w stosunku do tych, które odmawiają itp. Nielosowy dobór próby sprawia, że szacowany błąd jest niewiarygodny.
Z drugiej strony, ludzie mogą uważać, że statystyki są z natury niewiarygodne, ponieważ nie każdy jest nazywany, lub dlatego, że oni sami nigdy nie są ankietowani. Ludzie mogą myśleć, że niemożliwe jest uzyskanie danych na temat opinii dziesiątek milionów ludzi poprzez ankietowanie kilku tysięcy osób. To również jest nieścisłe. Ankieta z idealnie bezstronnym doborem próby i prawdziwymi odpowiedziami ma matematycznie określony margines błędu, który zależy tylko od liczby ankietowanych osób.
Jednakże, często tylko jeden margines błędu jest podawany dla ankiety. Kiedy wyniki są podawane dla podgrup populacji, stosuje się większy margines błędu, ale może to nie być jasno powiedziane. Na przykład, badanie przeprowadzone na 1000 osób może zawierać 100 osób z pewnej grupy etnicznej lub ekonomicznej. Wyniki skupiające się na tej grupie będą znacznie mniej wiarygodne niż wyniki dla całej populacji. Jeśli margines błędu dla pełnej próby wynosił, powiedzmy, 4%, to margines błędu dla takiej podgrupy może wynosić około 13%.
W badaniach populacyjnych występuje również wiele innych problemów pomiarowych.
Problemy wymienione powyżej dotyczą wszystkich eksperymentów statystycznych, nie tylko badań populacyjnych.
Fałszywa przyczynowośćEdit
Gdy test statystyczny wykazuje korelację między A i B, zwykle istnieje sześć możliwości:
- A powoduje B.
- B powoduje A.
- A i B oba częściowo powodują się nawzajem.
- A i B są oba spowodowane przez trzeci czynnik, C.
- B jest spowodowane przez C, który jest skorelowany z A.
- Obserwowana korelacja była spowodowana czysto przypadkiem.
Szósta możliwość może być skwantyfikowana przez testy statystyczne, które mogą obliczyć prawdopodobieństwo, że obserwowana korelacja byłaby tak duża jak jest tylko przypadkiem, jeśli w rzeczywistości nie ma żadnego związku między zmiennymi. Jednakże, nawet jeśli ta możliwość ma małe prawdopodobieństwo, jest jeszcze pięć innych.
Jeśli liczba ludzi kupujących lody na plaży jest statystycznie związana z liczbą ludzi, którzy toną na plaży, wtedy nikt nie będzie twierdził, że lody powodują utonięcia, ponieważ jest oczywiste, że tak nie jest. (W tym przypadku zarówno utonięcia jak i kupowanie lodów są wyraźnie powiązane przez trzeci czynnik: liczbę ludzi na plaży).
Ten fałsz może być użyty, na przykład, do udowodnienia, że narażenie na działanie substancji chemicznej powoduje raka. Zamień „liczbę osób kupujących lody” na „liczbę osób narażonych na działanie substancji chemicznej X”, a „liczbę osób, które utonęły” na „liczbę osób, które zachorowały na raka”, a wielu ludzi ci uwierzy. W takiej sytuacji może istnieć statystyczna korelacja, nawet jeśli nie ma rzeczywistego efektu. Na przykład, jeśli istnieje przekonanie, że teren zakładu chemicznego jest „niebezpieczny” (nawet jeśli w rzeczywistości nie jest), wartość nieruchomości na tym obszarze spadnie, co zachęci więcej rodzin o niskich dochodach do przeprowadzki na ten obszar. Jeśli rodziny o niskich dochodach są bardziej narażone na zachorowanie na raka niż rodziny o wysokich dochodach (na przykład z powodu gorszej diety lub mniejszego dostępu do opieki medycznej), to wskaźniki zachorowań na raka wzrosną, nawet jeśli sama substancja chemiczna nie jest niebezpieczna. Uważa się, że to jest dokładnie to, co się stało z niektórych wczesnych badań wykazujących związek między EMF (pola elektromagnetyczne) z linii energetycznych i cancer.
W dobrze zaprojektowanych badań, efekt fałszywej przyczynowości może być wyeliminowany przez przypisanie niektórych ludzi do „grupy leczenia” i niektórych ludzi do „grupy kontrolnej” w sposób losowy, i dając grupy leczenia leczenia i nie dając grupy kontrolnej leczenia. W powyższym przykładzie, badacz może wystawić jedną grupę ludzi na działanie substancji chemicznej X, a drugą grupę pozostawić nienaświetloną. Jeśli pierwsza grupa miała wyższe wskaźniki zachorowań na raka, badacz wie, że nie istnieje żaden trzeci czynnik, który miał wpływ na to, czy dana osoba była narażona, ponieważ kontrolował, kto był narażony, a kto nie, i losowo przydzielał ludzi do grup narażonych i nienarażonych. Jednak w wielu zastosowaniach przeprowadzenie eksperymentu w ten sposób jest albo zbyt kosztowne, niewykonalne, nieetyczne, nielegalne lub wręcz niemożliwe. Na przykład jest bardzo mało prawdopodobne, że IRB zaakceptuje eksperyment polegający na celowym narażaniu ludzi na działanie niebezpiecznej substancji w celu zbadania jej toksyczności. Oczywiste implikacje etyczne tego typu eksperymentów ograniczają zdolność badaczy do empirycznego testowania przyczynowości.
Dowód hipotezy zerowejEdit
W teście statystycznym hipoteza zerowa ( H 0 {displaystyle H_{0}}
) jest uznawana za ważną, dopóki wystarczająca liczba danych nie udowodni, że jest błędna. Wtedy H 0 {displaystyle H_{0}}
jest odrzucana, a hipotezę alternatywną ( H A {displaystyle H_{A}}
) uważa się za udowodnioną jako poprawną. Przez przypadek może się tak zdarzyć, choć H 0 {displaystyle H_{0}}
jest prawdziwe, z prawdopodobieństwem oznaczonym jako α {displaystyle \alpha }
(poziom istotności). Można to porównać do procesu sądowego, gdzie oskarżonego uważa się za niewinnego ( H 0 {displaystyle H_{0}}
), dopóki nie udowodni się mu winy ( H A {displaystyle H_{A}}
) ponad wszelką wątpliwość ( α {displaystyle \alpha }
).
Ale jeśli dane nie dają nam wystarczającego dowodu, by odrzucić, że H 0 {{displaystyle H_{0}}
, to nie dowodzi to automatycznie, że H 0 {displaystyle H_{0}}
jest poprawne. Jeśli, na przykład, producent tytoniu chce wykazać, że jego produkty są bezpieczne, może łatwo przeprowadzić test na małej próbie palaczy i małej próbie osób niepalących. Jest mało prawdopodobne, że którykolwiek z nich zachoruje na raka płuc (a nawet jeśli, to różnica między grupami musi być bardzo duża, aby odrzucić H 0 {{0}}}
). Dlatego jest prawdopodobne – nawet jeśli palenie jest niebezpieczne – że nasz test nie odrzuci H 0 {displaystyle H_{0}}
. Jeśli H 0 {displaystyle H_{0}}
zostanie zaakceptowane, nie wynika z tego automatycznie, że palenie jest nieszkodliwe. Test ma niewystarczającą moc, aby odrzucić H 0 {{0}}
, więc test jest bezużyteczny, a wartość „dowodu” H 0 {displaystyle H_{0}}
jest również zerowa.
Taką sytuację można – używając powyższej analogii sądowej – porównać do prawdziwie winnego oskarżonego, który zostaje zwolniony tylko dlatego, że dowód nie wystarcza do orzeczenia winy. To nie dowodzi niewinności oskarżonego, ale tylko to, że nie ma wystarczającego dowodu na wyrok winy.
„…hipoteza zerowa nigdy nie jest udowodniona ani ustalona, ale jest ewentualnie obalona, w trakcie eksperymentu. Można powiedzieć, że każdy eksperyment istnieje tylko po to, aby dać faktom szansę na obalenie hipotezy zerowej.” (Fisher w The Design of Experiments) Istnieje wiele powodów zamieszania, w tym użycie podwójnie negatywnej logiki i terminologii wynikającej z połączenia „testowania istotności” Fishera (gdzie hipoteza zerowa nigdy nie jest akceptowana) z „testowaniem hipotez” (gdzie jakaś hipoteza jest zawsze akceptowana).
Mylenie istotności statystycznej z istotnością praktycznąEdit
Statystyczna istotność jest miarą prawdopodobieństwa; praktyczna istotność jest miarą efektu. Leczenie łysienia jest statystycznie znaczące, jeśli rzadki brzoskwiniowy rozmycie zwykle pokrywa wcześniej nagą skórę głowy. Kuracja jest praktycznie znaczące, gdy kapelusz nie jest już wymagane w zimne dni, a fryzjer pyta, ile zdjąć górę. Łysi chcą lekarstwa, które jest zarówno statystycznie, jak i praktycznie znaczące; prawdopodobnie zadziała, a jeśli tak, to będzie miało duży efekt włochaty. Publikacja naukowa często wymaga jedynie istotności statystycznej. Doprowadziło to do skarg (przez ostatnie 50 lat), że testowanie istotności statystycznej jest nadużyciem statystyki.
Data dredgingEdit
Data dredging to nadużycie eksploracji danych. W data dredging, duże kompilacje danych są badane w celu znalezienia korelacji, bez wcześniejszego wyboru hipotezy, która ma być testowana. Ponieważ wymagany przedział ufności do ustalenia związku między dwoma parametrami jest zwykle wybierany na 95% (co oznacza, że istnieje 95% szans, że zaobserwowany związek nie jest wynikiem przypadku), istnieje zatem 5% szans na znalezienie korelacji między dwoma dowolnymi zestawami całkowicie losowych zmiennych. Biorąc pod uwagę, że wysiłki pogłębiania danych zazwyczaj badają duże zbiory danych z wieloma zmiennymi, a tym samym jeszcze większe liczby par zmiennych, fałszywe, ale pozornie statystycznie istotne wyniki są prawie pewne do znalezienia przez każde takie badanie.
Zauważ, że pogłębianie danych jest ważnym sposobem znalezienia możliwej hipotezy, ale ta hipoteza musi być następnie przetestowana z danymi nieużywanymi w oryginalnym pogłębianiu. Nadużycie pojawia się, gdy ta hipoteza jest podawana jako fakt bez dalszej walidacji.
„Nie można legalnie przetestować hipotezy na tych samych danych, które po raz pierwszy zasugerowały tę hipotezę. Lekarstwo jest jasne. Kiedy już masz hipotezę, zaprojektuj badanie, aby szukać konkretnie efektu, który teraz myślisz, że tam jest. Jeśli wynik tego testu jest statystycznie istotny, masz w końcu prawdziwy dowód.”
Manipulacja danymiEdit
Informacyjnie nazywane „fałszowanie danych”, praktyka ta obejmuje selektywne raportowanie (patrz również stronniczość publikacji), a nawet po prostu wymyślanie fałszywych danych.
Przykłady selektywnego raportowania obfitują. Najprostsze i najbardziej powszechne przykłady obejmują wybór grupy wyników, które podążają za wzorcem zgodnym z preferowaną hipotezą, podczas gdy ignorują inne wyniki lub „serie danych”, które przeczą hipotezie.
Badacze zjawisk parapsychicznych od dawna kwestionują badania pokazujące ludzi z umiejętnością ESP. Krytycy oskarżają zwolenników ESP o publikowanie tylko eksperymentów z pozytywnymi wynikami i odkładanie na półkę tych, które wykazują wyniki negatywne. Pozytywny wynik” to przebieg testu (lub przebieg danych), w którym badany odgaduje ukrytą kartę, itp. z dużo większą częstotliwością niż przypadkowy przypadek.
Naukowcy, ogólnie rzecz biorąc, kwestionują ważność wyników badań, które nie mogą być odtworzone przez innych badaczy. Jednak niektórzy naukowcy odmawiają publikowania swoich danych i metod.
Manipulacja danymi jest poważnym problemem/rozważaniem w najbardziej uczciwych analizach statystycznych. Wartości odstające, brakujące dane i nienormalność mogą negatywnie wpływać na ważność analizy statystycznej. Właściwe jest zbadanie danych i naprawienie rzeczywistych problemów przed rozpoczęciem analizy. „n każdym wykresie rozproszenia będą pewne punkty mniej lub bardziej oderwane od głównej części chmury: te punkty powinny być odrzucone tylko dla przyczyny.”
Inne błędyEdit
Pseudoreplikacja jest błędem technicznym związanym z analizą wariancji. Złożoność ukrywa fakt, że analiza statystyczna jest próbowana na pojedynczej próbie (N=1). Dla tego zdegenerowanego przypadku wariancja nie może być obliczona (dzielenie przez zero). An (N=1) zawsze da badaczowi najwyższą statystyczną korelację między intencją stronniczości a rzeczywistymi ustaleniami.
Fałszywość hazardzisty zakłada, że zdarzenie, dla którego można zmierzyć przyszłe prawdopodobieństwo, miało takie samo prawdopodobieństwo zajścia, gdy już się wydarzyło. Thus, if someone had already threw 9 coins and each has come up heads, people tend to assume that the likelihood of a tenth toss also being heads is 1023 to 1 against (which it was before the first coin was thrown) when in fact the chance of the tenth head is 50% (assuming the coin is unbiased).
The prosecutor’s fallacy has led, in the UK, to Sally Clark being wrongly convicted of killing her two sons. W sądzie niskie statystyczne prawdopodobieństwo (1 w 73 milionów) kobiety dwóch dzieci umierających z Sudden Infant Death Syndrome podane przez profesora Sir Roy Meadow zostały błędnie zinterpretowane do sugeruje niskie prawdopodobieństwo jej niewinności. Nawet gdyby podane prawdopodobieństwo podwójnego SIDS, które zostało później zakwestionowane przez Królewskie Towarzystwo Statystyczne, było prawidłowe, trzeba rozważyć wszystkie możliwe wyjaśnienia, aby dojść do wniosku, które z nich najprawdopodobniej spowodowało niewyjaśnioną śmierć dwójki dzieci. Dostępne dane sugerują, że szanse byłyby na korzyść podwójnego SIDS w porównaniu do podwójnego zabójstwa o współczynnik dziewięciu „. Wyrok skazujący Sally Clark został ostatecznie unieważniony.
Fałszywość ludyczna. Prawdopodobieństwa są oparte na prostych modelach, które ignorują rzeczywiste (jeśli odległe) możliwości. Gracze w pokera nie biorą pod uwagę, że przeciwnik może wyciągnąć broń zamiast karty. Ubezpieczeni (i rządy) zakładają, że ubezpieczyciele pozostaną wypłacalni, ale zobacz AIG i ryzyko systemowe.
Inne rodzaje niewłaściwego użyciaEdit
Inne niewłaściwe użycia obejmują porównywanie jabłek i pomarańczy, używanie niewłaściwej średniej, regresję w kierunku średniej i frazę parasolową garbage in, garbage out. Niektóre statystyki są po prostu nieistotne dla danego zagadnienia.
Kwartet Anscombe’a to zestaw danych, który jest przykładem niedociągnięć prostych statystyk opisowych (oraz wartości wykreślania danych przed analizą numeryczną).