Zneužití statistiky

Vyřazení nepříznivých pozorováníUpravit
Ignorování důležitých rysůUpravit
Načtené otázkyUpravit
Nadměrné zobecněníUpravit
Zkreslené vzorkyEdit
Chybné hlášení nebo nepochopení odhadované chybyEdit
Falešná kauzalita: Když statistický test ukazuje korelaci mezi A a B, existuje obvykle šest možností: A způsobuje B. B způsobuje A. A i B se navzájem částečně způsobují. A i B jsou způsobeny třetím faktorem, C. B je způsoben C, který je korelován s A. Pozorovaná korelace byla způsobena čistě náhodou.
Důkaz nulové hypotézyEdit
Záměna statistické významnosti s praktickou významnostíEdit
Bagrování datUpravit
Manipulace s datyEdit
Další chybyEdit
Jiné typy zneužitíEdit

Vyřazení nepříznivých pozorováníUpravit

Viz také: Publikační zkreslení

Všechno, co musí společnost udělat pro propagaci neutrálního (neužitečného) produktu, je najít nebo provést například 40 studií s hladinou spolehlivosti 95 %. Pokud je výrobek skutečně zbytečný, vznikne tak v průměru jedna studie, která prokáže, že výrobek je prospěšný, jedna studie, která prokáže, že je škodlivý, a třicet osm neprůkazných studií (38 je 95 % ze 40). Tato taktika je tím účinnější, čím více studií je k dispozici. Tuto taktiku budou pravděpodobně používat organizace, které nezveřejňují každou provedenou studii, například tabákové společnosti popírající souvislost mezi kouřením a rakovinou, skupiny bojující proti kouření a média snažící se dokázat souvislost mezi kouřením a různými onemocněními nebo prodejci zázračných pilulek.

Ronald Fisher se touto problematikou zabýval ve svém slavném experimentu s příkladem dámské ochutnávky čaje (z jeho knihy The Design of Experiments z roku 1935). Ohledně opakovaných experimentů řekl: „Bylo by zjevně nelegitimní a okrádalo by to náš výpočet o jeho základ, kdyby neúspěšné výsledky nebyly všechny vzaty v úvahu.“

Dalším termínem souvisejícím s tímto pojmem je cherry picking (výběr třešní).

Ignorování důležitých rysůUpravit

Multivariabilní soubory dat mají dva nebo více rysů/rozměrů. Pokud je pro analýzu vybráno příliš málo těchto rysů (například pokud je vybrán pouze jeden rys a místo vícenásobné lineární regrese je provedena jednoduchá lineární regrese), mohou být výsledky zavádějící. Tím se analytik stává zranitelným vůči některému z různých statistických paradoxů nebo v některých (ne všech) případech falešné kauzality, jak je uvedeno níže.

Načtené otázkyUpravit

Hlavní článek: Zatížená otázka

Odpovědi v průzkumech lze často zmanipulovat tím, že se otázka formuluje tak, aby u respondenta vyvolala příklon k určité odpovědi. Například při průzkumu podpory války otázky:

Podporujete snahu USA přinést svobodu a demokracii na jiná místa ve světě?
Podporujete nevyprovokovanou vojenskou akci USA?

budou mít pravděpodobně za následek údaje zkreslené různými směry, přestože se obě týkají podpory války. Lepší formulace otázky by mohla znít „Podporujete současnou vojenskou akci USA v zahraničí?“. Ještě téměř neutrálnější způsob formulace této otázky je „Jaký je váš názor na současnou vojenskou akci USA v zahraničí?“. Mělo by jít o to, aby tázaný neměl možnost z formulace otázky odhadnout, co by tazatel mohl chtít slyšet.

Jiným způsobem, jak toho dosáhnout, je předcházet otázce informací, která podporuje „požadovanou“ odpověď. Například na otázku „Vzhledem k rostoucí daňové zátěži rodin střední třídy, podporujete snížení daně z příjmu?“ pravděpodobně odpoví více lidí „ano“ než na otázku „Vzhledem k rostoucímu deficitu federálního rozpočtu a zoufalé potřebě větších příjmů, podporujete snížení daně z příjmu?“

Vhodná formulace otázek může být velmi jemná. Odpovědi na dvě otázky se mohou dramaticky lišit v závislosti na pořadí, v jakém jsou položeny. „Průzkum, který se ptal na ‚vlastnictví akcií‘, zjistil, že většina texaských rančerů vlastní akcie, i když pravděpodobně ne takové, které se obchodují na newyorské burze.“

Nadměrné zobecněníUpravit

Nadměrné zobecnění je omyl, ke kterému dochází, když se tvrdí, že statistika o určité populaci platí mezi členy skupiny, pro kterou původní populace není reprezentativním vzorkem.

Předpokládejme například, že 100 % jablek je v létě červených. Tvrzení „Všechna jablka jsou červená“ by bylo případem přílišného zobecnění, protože původní statistika platila pouze pro určitou podmnožinu jablek (ta v létě), u níž se nepředpokládá, že by byla reprezentativní pro celou populaci jablek.

Reálný příklad klamu přílišného zobecnění lze pozorovat jako artefakt moderních technik průzkumu veřejného mínění, které zakazují volání na mobilní telefony pro telefonické politické průzkumy. Vzhledem k tomu, že mladí lidé častěji než jiné demografické skupiny nemají klasický „pevný“ telefon, může telefonický průzkum, který se týká výhradně respondentů volajících na pevné telefony, způsobit, že výsledky průzkumu budou mít nedostatečný vzorek názorů mladých lidí, pokud nebudou přijata jiná opatření, která by toto zkreslení výběru zohlednila. Průzkum zkoumající volební preference mladých lidí pomocí této techniky tedy nemusí být dokonale přesnou reprezentací skutečných volebních preferencí mladých lidí jako celku, aniž by došlo k přílišnému zobecnění, protože použitý vzorek vylučuje mladé lidi, kteří mají u sebe pouze mobilní telefony a kteří mohou, ale nemusí mít volební preference odlišné od zbytku populace.

K přílišnému zobecnění často dochází, když jsou informace předávány prostřednictvím netechnických zdrojů, zejména masmédií.

Zkreslené vzorkyEdit

Hlavní článek: Vědci se draze naučili, že shromáždit dobrá experimentální data pro statistickou analýzu je obtížné. Příkladem může být např: Placebo efekt (mysl nad tělem) je velmi silný. U 100 % subjektů se objevila vyrážka, když byly vystaveny inertní látce, která byla falešně nazvána jedovatým břečťanem, zatímco u málokterého subjektu se objevila vyrážka na „neškodný“ předmět, který byl skutečně jedovatým břečťanem. Výzkumníci proti tomuto efektu bojují dvojitě slepými randomizovanými srovnávacími experimenty. Statistici si obvykle dělají větší starosti s validitou dat než s jejich analýzou. To se odráží v oblasti studia v rámci statistiky známé jako design experimentů.

Průzkumníci se draze naučili, že shromáždit dobrá data z průzkumů pro statistickou analýzu je obtížné. Jedním z možných příkladů je selektivní vliv mobilních telefonů na sběr dat (diskutovaný v části Přílišné zobecnění); Pokud mladí lidé s tradičními telefony nejsou reprezentativní, může být vzorek zkreslený. Výběrová šetření mají mnoho úskalí a vyžadují velkou opatrnost při provádění. Jedna snaha si vyžádala téměř 3000 telefonátů k získání 1000 odpovědí. Prostý náhodný vzorek populace „není jednoduchý a nemusí být náhodný.“

Chybné hlášení nebo nepochopení odhadované chybyEdit

Pokud chce výzkumný tým zjistit, co si o určitém tématu myslí 300 milionů lidí, bylo by nepraktické ptát se všech. Pokud však tým vybere náhodný vzorek asi 1000 lidí, může si být poměrně jistý, že výsledky, které tato skupina uvedla, jsou reprezentativní pro to, co by řekla větší skupina, kdyby byli dotázáni všichni.

Tuto jistotu lze skutečně kvantifikovat pomocí centrální limitní věty a dalších matematických výsledků. Důvěra je vyjádřena jako pravděpodobnost, že skutečný výsledek (pro větší skupinu) bude v určitém rozmezí odhadu (údaje pro menší skupinu). Jedná se o údaj „plus minus“, který se často uvádí u statistických průzkumů. Pravděpodobnostní část míry spolehlivosti se obvykle neuvádí; pokud ano, předpokládá se, že jde o standardní číslo, například 95 %.

Dvě čísla spolu souvisejí. Pokud má průzkum odhadovanou chybu ±5 % při 95% spolehlivosti, má také odhadovanou chybu ±6,6 % při 99% spolehlivosti. ± x {\displaystyle x}

% při 95% spolehlivosti je vždy ± 1,32 x {\displaystyle 1,32x}.

% při 99% spolehlivosti pro normálně rozdělenou populaci.

Čím menší je odhadovaná chyba, tím větší je potřebný vzorek při dané hladině spolehlivosti.

při 95,4% spolehlivosti:

±1% by vyžadovalo 10 000 lidí.
±2% by vyžadovalo 2 500 lidí.
±3% by vyžadovalo 1 111 lidí.
±4% by vyžadovalo 625 lidí.
±5% by vyžadovalo 400 lidí.
±10% by vyžadovalo 100 lidí.
±20% by vyžadovalo 25 osob.
±25 % by vyžadovalo 16 osob.
±50 % by vyžadovalo 4 lidi.

Lidé se mohou domnívat, protože je vynechán údaj o spolehlivosti, že existuje 100% jistota, že skutečný výsledek je v rámci odhadované chyby. To není matematicky správné.

Mnoho lidí si možná neuvědomuje, že náhodnost vzorku je velmi důležitá. V praxi se mnoho průzkumů veřejného mínění provádí telefonicky, což vzorek zkresluje několika způsoby, včetně vyloučení lidí, kteří nemají telefon, zvýhodnění zařazení lidí, kteří mají více než jeden telefon, zvýhodnění zařazení lidí, kteří jsou ochotni se telefonického průzkumu zúčastnit, před těmi, kteří to odmítají, atd. Nerozhodný výběr vzorku činí odhadovanou chybu nespolehlivou.

Na druhou stranu se lidé mohou domnívat, že statistika je ze své podstaty nespolehlivá, protože ne každý je obvolán, nebo protože oni sami nejsou nikdy dotazováni. Lidé se mohou domnívat, že není možné získat údaje o mínění desítek milionů lidí pouhým dotazováním několika tisíc. To je také nepřesné. Průzkum s dokonale objektivním výběrem a pravdivými odpověďmi má matematicky stanovenou chybovost, která závisí pouze na počtu dotazovaných osob.

Často se však u průzkumu uvádí pouze jedna chybovost. Pokud jsou výsledky uváděny pro podskupiny populace, použije se větší rozpětí chyby, což však nemusí být jasně uvedeno. Například průzkum zahrnující 1000 osob může obsahovat 100 osob z určité etnické nebo ekonomické skupiny. Výsledky zaměřené na tuto skupinu budou mnohem méně spolehlivé než výsledky za celou populaci. Jestliže chybové rozpětí pro celý vzorek bylo například 4 %, pak chybové rozpětí pro takovou podskupinu může být přibližně 13 %.

V populačních průzkumech existuje také mnoho dalších problémů s měřením.

Výše uvedené problémy se týkají všech statistických experimentů, nejen populačních průzkumů.

Další informace: Falešná kauzalitaUpravit

Hlavní článek: Průzkum veřejného mínění a statistický průzkum

Falešná kauzalita: Když statistický test ukazuje korelaci mezi A a B, existuje obvykle šest možností:

A způsobuje B.

B způsobuje A.

A i B se navzájem částečně způsobují.

A i B jsou způsobeny třetím faktorem, C.

B je způsoben C, který je korelován s A.

Pozorovaná korelace byla způsobena čistě náhodou.

Šestou možnost lze kvantifikovat pomocí statistických testů, které dokáží vypočítat pravděpodobnost, že by pozorovaná korelace byla tak velká, jaká je pouze náhodou, pokud by ve skutečnosti mezi proměnnými neexistoval žádný vztah. Nicméně i když má tato možnost malou pravděpodobnost, stále je tu těch pět ostatních.

Pokud by počet lidí, kteří si kupují zmrzlinu na pláži, statisticky souvisel s počtem lidí, kteří se na pláži utopí, pak by nikdo netvrdil, že zmrzlina způsobuje utopení, protože je zřejmé, že tomu tak není. (V tomto případě je zřejmé, že jak utonutí, tak kupování zmrzliny souvisí s třetím faktorem: počtem lidí na pláži).

Tento omyl lze použít například při dokazování, že vystavení chemické látce způsobuje rakovinu. Nahraďte „počet lidí kupujících zmrzlinu“ za „počet lidí vystavených chemické látce X“ a „počet lidí, kteří se utopí“ za „počet lidí, kteří dostanou rakovinu“ a mnoho lidí vám uvěří. V takové situaci může existovat statistická korelace, i když neexistuje žádný skutečný vliv. Pokud například vznikne dojem, že chemická lokalita je „nebezpečná“ (i když ve skutečnosti není), sníží se hodnota nemovitostí v dané oblasti, což bude lákat více rodin s nízkými příjmy, aby se do této oblasti přestěhovaly. Pokud rodiny s nízkými příjmy častěji onemocní rakovinou než rodiny s vysokými příjmy (například v důsledku horšího stravování nebo horšího přístupu k lékařské péči), pak se počet případů rakoviny zvýší, i když chemická látka sama o sobě není nebezpečná. Předpokládá se, že přesně to se stalo v případě některých prvních studií, které prokázaly souvislost mezi EMP (elektromagnetickými poli) z elektrického vedení a rakovinou.

V dobře navržených studiích lze efekt falešné kauzality eliminovat tím, že část lidí náhodně zařadíme do „léčebné skupiny“ a část lidí do „kontrolní skupiny“ a léčebné skupině dáme léčbu a kontrolní skupině léčbu nedáme. Ve výše uvedeném příkladu může výzkumník vystavit jednu skupinu lidí působení chemické látky X a druhou skupinu ponechat bez působení. Pokud by první skupina měla vyšší výskyt rakoviny, výzkumník ví, že neexistuje žádný třetí faktor, který by ovlivnil, zda byla osoba exponována, protože kontroloval, kdo byl či nebyl exponován, a náhodně zařadil lidi do exponované a neexponované skupiny. V mnoha případech je však skutečné provedení experimentu tímto způsobem buď neúměrně nákladné, neproveditelné, neetické, nezákonné, nebo přímo nemožné. Je například velmi nepravděpodobné, že by IRB schválila experiment, který by zahrnoval záměrné vystavení lidí nebezpečné látce za účelem testování její toxicity. Zřejmé etické důsledky takových typů experimentů omezují schopnost výzkumníků empiricky testovat příčinné souvislosti.

Důkaz nulové hypotézyEdit

Ve statistickém testu se nulová hypotéza ( H 0 {\displaystyle H_{0}}

) považuje za platnou, dokud dostatek dat neprokáže, že je nesprávná. Pak H 0 {\displaystyle H_{0}}.

se zamítá a alternativní hypotéza ( H A {\displaystyle H_{A}}

) se považuje za prokázanou jako správná. Náhodou se to může stát, i když H 0 {\displaystyle H_{0}}

je pravdivá s pravděpodobností označenou α {\displaystyle \alpha }

(hladina významnosti). To lze přirovnat k soudnímu procesu, kde je obviněný považován za nevinného ( H 0 {\displaystyle H_{0}}

), dokud mu není prokázána vina ( H A {\displaystyle H_{A}}

) bez důvodných pochybností ( α {\displaystyle \alpha }

Pokud nám však data neposkytují dostatečný důkaz pro odmítnutí toho, že H 0 {\displaystyle H_{0}}.

, nedokazuje to automaticky, že H 0 {\displaystyle H_{0}}.

je správná. Pokud chce například výrobce tabákových výrobků prokázat, že jeho výrobky jsou bezpečné, může snadno provést test na malém vzorku kuřáků oproti malému vzorku nekuřáků. Je nepravděpodobné, že by některý z nich onemocněl rakovinou plic (a i kdyby ano, rozdíl mezi skupinami musí být velmi velký, aby bylo možné zamítnout H 0 {\displaystyle H_{0}}.

). Proto je pravděpodobné – i když je kouření nebezpečné – že náš test nezamítne H 0 {\displaystyle H_{0}}.

. Pokud H 0 {\displaystyle H_{0}}

přijata, nevyplývá z toho automaticky, že kouření je prokazatelně neškodné. Test nemá dostatečnou sílu k zamítnutí H 0 {\displaystyle H_{0}}.

, takže test je zbytečný a hodnota „důkazu“ H 0 {\displaystyle H_{0}} je nulová.

je rovněž nulová.

To lze – s použitím výše uvedené soudní analogie – srovnat se skutečně vinným obžalovaným, který je propuštěn jen proto, že důkaz nestačí k vynesení rozsudku o vině. Tím se nedokazuje nevina obžalovaného, ale pouze to, že není dostatek důkazů pro vynesení rozsudku o vině.

„…nulová hypotéza není nikdy prokázána ani stanovena, ale je případně vyvrácena, a to v průběhu experimentu. Lze říci, že každý experiment existuje pouze proto, aby fakta poskytla šanci vyvrátit nulovou hypotézu.“ . (Fisher v knize The Design of Experiments) Existuje mnoho důvodů pro záměnu, včetně používání dvojí záporné logiky a terminologie vyplývající ze sloučení Fisherova „testování významnosti“ (kdy nulová hypotéza není nikdy přijata) s „testováním hypotéz“ (kdy je vždy přijata nějaká hypotéza).

Záměna statistické významnosti s praktickou významnostíEdit

Statistická významnost je mírou pravděpodobnosti; praktická významnost je mírou účinku. Léčba plešatosti je statisticky významná, pokud řídké broskvové chmýří obvykle pokrývá dříve holou pokožku hlavy. Vyléčení je prakticky významné, když v chladném počasí již není nutný klobouk a holič se ptá, kolik má sundat vršku. Plešatí chtějí lék, který je statisticky i prakticky významný; Pravděpodobně bude fungovat, a pokud ano, bude mít velký vlasový efekt. Vědecká publikace často vyžaduje pouze statistickou významnost. To vedlo ke stížnostem (za posledních 50 let), že testování statistické významnosti je zneužitím statistiky.

Bagrování datUpravit

Hlavní článek: Data dredging

Data dredging je zneužití dolování dat. Při data dredgingu se zkoumají rozsáhlé kompilace dat za účelem nalezení korelace, aniž by byla předem zvolena hypotéza, která má být testována. Vzhledem k tomu, že požadovaný interval spolehlivosti pro zjištění vztahu mezi dvěma parametry je obvykle zvolen na 95 % (což znamená, že existuje 95% šance, že pozorovaný vztah není způsoben náhodou), existuje tedy 5% šance na nalezení korelace mezi libovolnými dvěma soubory zcela náhodných proměnných. Vzhledem k tomu, že snahy o prohloubení dat obvykle zkoumají rozsáhlé soubory dat s mnoha proměnnými, a tedy i větším počtem párů proměnných, je téměř jisté, že v každé takové studii budou nalezeny falešné, ale zdánlivě statisticky významné výsledky.

Poznamenejme, že prohloubení dat je platný způsob, jak najít možnou hypotézu, ale tato hypotéza musí být následně testována s daty, která nebyla použita v původním prohloubení. Zneužití nastává, když je tato hypotéza prohlášena za fakt bez dalšího ověření.

„Nelze legitimně testovat hypotézu na stejných datech, která tuto hypotézu poprvé navrhla. Náprava je jasná. Jakmile máte hypotézu, navrhněte studii, která bude konkrétně hledat účinek, o němž se nyní domníváte, že existuje. Pokud je výsledek tohoto testu statisticky významný, máte konečně skutečný důkaz.“

Manipulace s datyEdit

Nezaměňovat se zpracováním dat, přípravou dat nebo manipulací s daty, což jsou překrývající se termíny, které se často obecně označují jako „manipulace s daty“.

Neformálně se tato praxe nazývá „falšování dat“ a zahrnuje selektivní vykazování (viz také publikační zkreslení) a dokonce i prosté vymýšlení nepravdivých údajů.

Příkladů selektivního vykazování je mnoho. Nejjednodušší a nejběžnější příklady zahrnují výběr skupiny výsledků, které sledují vzorec odpovídající preferované hypotéze, zatímco ignorují jiné výsledky nebo „běhy dat“, které jsou s hypotézou v rozporu.

Výzkumníci v oblasti psychiky již dlouho zpochybňují studie, které ukazují na lidi se schopností ESP. Kritici obviňují zastánce ESP, že publikují pouze experimenty s pozitivními výsledky a odkládají ty, které vykazují negativní výsledky. „Pozitivní výsledek“ je takový test (nebo datový běh), při němž zkoumaná osoba uhodne skrytou kartu apod. s mnohem vyšší četností než náhoda.

Vědci obecně zpochybňují platnost výsledků studií, které nemohou být reprodukovány jinými badateli. Někteří vědci však odmítají zveřejnit svá data a metody.

Manipulace s daty je vážným problémem/úvahou i při těch nejpoctivějších statistických analýzách. Odlehlé hodnoty, chybějící údaje a nenormálnost mohou negativně ovlivnit platnost statistické analýzy. Před zahájením analýzy je vhodné data prostudovat a opravit skutečné problémy. „n a každém diagramu rozptylu budou některé body více či méně oddělené od hlavní části mračna: tyto body by měly být odmítnuty pouze z příčiny.“

Další chybyEdit

Pseudoreplikace je technická chyba spojená s analýzou rozptylu. Složitost skrývá skutečnost, že se o statistickou analýzu pokoušíme na jediném vzorku (N=1). Pro tento degenerovaný případ nelze rozptyl vypočítat (dělení nulou). (N=1) poskytne výzkumníkovi vždy nejvyšší statistickou korelaci mezi záměrnou odchylkou a skutečnými zjištěními.

Omyl hazardního hráče předpokládá, že událost, u níž lze měřit budoucí pravděpodobnost, měla stejnou pravděpodobnost, že nastane, jakmile již nastala. Pokud tedy někdo hodil již 9 mincí a každá z nich padla hlavou, lidé mají tendenci předpokládat, že pravděpodobnost, že desátá mince padne také hlavou, je 1023 ku 1 proti (což bylo před hodem první mince), zatímco ve skutečnosti je pravděpodobnost desáté hlavy 50 % (za předpokladu, že mince je nestranná).

Omyl žalobce vedl ve Velké Británii k tomu, že Sally Clarková byla neprávem odsouzena za vraždu svých dvou synů. U soudu byla nízká statistická pravděpodobnost (1 ku 73 milionům) úmrtí dvou ženiných dětí na syndrom náhlého úmrtí kojenců, kterou uvedl profesor Sir Roy Meadow, nesprávně interpretována tak, že naznačuje nízkou pravděpodobnost její neviny. I kdyby byla uvedená pravděpodobnost dvojího SIDS, kterou později zpochybnila Královská statistická společnost, správná, je třeba zvážit všechna možná vysvětlení proti sobě, aby bylo možné učinit závěr, které z nich s největší pravděpodobností způsobilo nevysvětlitelnou smrt obou dětí. Z dostupných údajů vyplývá, že pravděpodobnost dvojnásobného SIDS by byla devítinásobná ve srovnání s dvojnásobnou vraždou“. Odsouzení Sally Clarkové bylo nakonec zrušeno.

Ludský omyl. Pravděpodobnosti jsou založeny na jednoduchých modelech, které ignorují reálné (i když vzdálené) možnosti. Hráči pokeru neuvažují o tom, že soupeř může vytáhnout zbraň místo karty. Pojištěnci (a vlády) předpokládají, že pojišťovny zůstanou solventní, ale viz AIG a systémové riziko.

Jiné typy zneužitíEdit

Mezi další zneužití patří srovnávání jablek a pomerančů, používání nesprávného průměru, regrese k průměru a zastřešující fráze garbage in, garbage out. Některé statistiky jsou pro danou problematiku jednoduše irelevantní.

Anscombovo kvarteto je vymyšlený soubor dat, který je příkladem nedostatků prosté popisné statistiky (a hodnoty vykreslování dat před numerickou analýzou).

Wzrost