Eliminarea observațiilor nefavorabileEdit

Vezi și:

Vezi și: : Viciu de publicare

Tot ce trebuie să facă o companie pentru a promova un produs neutru (inutil) este să găsească sau să efectueze, de exemplu, 40 de studii cu un nivel de încredere de 95%. Dacă produsul este cu adevărat inutil, acest lucru ar produce, în medie, un studiu care să arate că produsul este benefic, un studiu care să arate că este dăunător și treizeci și opt de studii neconcludente (38 reprezintă 95% din 40). Această tactică devine cu atât mai eficientă cu cât există mai multe studii disponibile. Organizațiile care nu publică fiecare studiu pe care îl realizează, cum ar fi companiile producătoare de tutun care neagă o legătură între fumat și cancer, grupurile de susținere a anti-fumatului și mass-media care încearcă să demonstreze o legătură între fumat și diverse afecțiuni sau vânzătorii de pilule miraculoase, sunt susceptibile de a utiliza această tactică.

Ronald Fisher a luat în considerare această problemă în celebrul său experiment cu exemplul doamnei care degustă ceaiul (din cartea sa din 1935, The Design of Experiments). În ceea ce privește experimentele repetate, el a spus: „Ar fi în mod clar nelegitim și ar lipsi calculul nostru de baza sa, dacă rezultatele nereușite nu ar fi toate aduse în calcul.”

Un alt termen legat de acest concept este cherry picking.

Ignorarea caracteristicilor importanteEdit

Seturile de date multivariabile au două sau mai multe caracteristici/dimensiuni. Dacă prea puține dintre aceste caracteristici sunt alese pentru analiză (de exemplu, dacă se alege doar o singură caracteristică și se efectuează o regresie liniară simplă în loc de o regresie liniară multiplă), rezultatele pot fi înșelătoare. Acest lucru îl lasă pe analist vulnerabil la oricare dintre diversele paradoxuri statistice sau, în unele cazuri (nu toate), la o cauzalitate falsă, așa cum se arată mai jos.

Întrebări încărcateEdit

Articolul principal: Întrebare încărcată

Răspunsurile la sondaje pot fi adesea manipulate prin formularea întrebării în așa fel încât să inducă o prevalență spre un anumit răspuns din partea respondentului. De exemplu, în cadrul unui sondaj de opinie privind sprijinul pentru un război, întrebările:

  • Susțineți încercarea SUA de a aduce libertatea și democrația în alte locuri din lume?
  • Susțineți acțiunea militară neprovocată a SUA?

va rezulta probabil în date distorsionate în direcții diferite, deși ambele sondaje se referă la sprijinul pentru război. Un mod mai bun de formulare a întrebării ar putea fi „Susțineți acțiunile militare actuale ale SUA în străinătate?”. Un mod și mai aproape neutru de a formula această întrebare este „Care este opinia dumneavoastră despre actuala acțiune militară americană în străinătate?”. Ideea ar trebui să fie ca persoana întrebată să nu aibă cum să ghicească din formulare ceea ce ar vrea să audă cel care pune întrebarea.

O altă modalitate de a face acest lucru este de a preceda întrebarea cu informații care susțin răspunsul „dorit”. De exemplu, mai multe persoane vor răspunde probabil „da” la întrebarea „Având în vedere povara din ce în ce mai mare a impozitelor asupra familiilor din clasa de mijloc, susțineți reducerea impozitului pe venit?” decât la întrebarea „Având în vedere deficitul bugetar federal în creștere și nevoia disperată de mai multe venituri, susțineți reducerea impozitului pe venit?”

Formularea corectă a întrebărilor poate fi foarte subtilă. Răspunsurile la două întrebări pot varia dramatic în funcție de ordinea în care sunt puse. „Un sondaj care a întrebat despre „deținerea de acțiuni” a constatat că majoritatea crescătorilor de animale din Texas dețineau acțiuni, deși, probabil, nu de genul celor tranzacționate la bursa din New York.”

SuprageneralizareEdit

Suprageneralizarea este o eroare care apare atunci când se afirmă că o statistică despre o anumită populație este valabilă în rândul membrilor unui grup pentru care populația inițială nu este un eșantion reprezentativ.

De exemplu, să presupunem că se observă că 100% din mere sunt roșii vara. Afirmația „Toate merele sunt roșii” ar fi un exemplu de suprageneralizare, deoarece statistica originală a fost adevărată doar pentru un anumit subgrup de mere (cele de vară), care nu este de așteptat să fie reprezentativ pentru populația de mere ca întreg.

Un exemplu din lumea reală al erorii de suprageneralizare poate fi observat ca un artefact al tehnicilor moderne de sondaj, care interzic apelarea telefoanelor mobile pentru sondaje politice prin telefon. Deoarece tinerii sunt mai predispuși decât alte grupuri demografice să nu aibă un telefon „fix” convențional, un sondaj telefonic care intervievează exclusiv respondenții care apelează telefoane fixe, poate face ca rezultatele sondajului să subeșantioneze opiniile tinerilor, dacă nu se iau alte măsuri pentru a ține cont de această denaturare a eșantionării. Astfel, un sondaj care examinează preferințele de vot ale tinerilor folosind această tehnică ar putea să nu fie o reprezentare perfect exactă a adevăratelor preferințe de vot ale tinerilor în ansamblul lor, fără a suprageneraliza, deoarece eșantionul folosit exclude tinerii care au la ei doar telefoane mobile, care pot avea sau nu preferințe de vot diferite de cele ale restului populației.

Suprageneralizarea apare adesea atunci când informația este transmisă prin surse non-tehnice, în special prin mass-media.

Eșantioane părtinitoareEdit

Articolul principal: Eșantion tendențios

Științii au învățat cu costuri mari că este dificil să adune date experimentale bune pentru analiza statistică. Exemplu: Efectul placebo (mintea asupra corpului) este foarte puternic. 100% dintre subiecți au dezvoltat o erupție cutanată atunci când au fost expuși la o substanță inertă care a fost numită în mod fals iederă otrăvitoare, în timp ce puțini au dezvoltat o erupție cutanată la un obiect „inofensiv” care era într-adevăr iederă otrăvitoare. Cercetătorii combat acest efect prin experimente comparative randomizate dublu-orb randomizate. Statisticienii se preocupă de obicei mai mult de validitatea datelor decât de analiză. Acest lucru se reflectă într-un domeniu de studiu din cadrul statisticii cunoscut sub numele de designul experimentelor.

Polițiștii au învățat cu costuri mari că este dificil să adune date de sondaj bune pentru analiza statistică. Efectul selectiv al telefoanelor celulare asupra colectării datelor (discutat în secțiunea Suprageneralizare) este un exemplu potențial; Dacă tinerii cu telefoane tradiționale nu sunt reprezentativi, eșantionul poate fi distorsionat. Sondajele prin sondaj au multe capcane și necesită o mare atenție în execuție. Un efort a necesitat aproape 3000 de apeluri telefonice pentru a obține 1000 de răspunsuri. Eșantionul aleatoriu simplu al populației „nu este simplu și poate să nu fie aleatoriu.”

Raportarea eronată sau înțelegerea greșită a erorii estimateEdit

Dacă o echipă de cercetare dorește să știe ce părere au 300 de milioane de oameni despre un anumit subiect, ar fi nepractic să îi întrebe pe toți. Cu toate acestea, dacă echipa alege un eșantion aleatoriu de aproximativ 1000 de persoane, poate fi destul de sigură că rezultatele oferite de acest grup sunt reprezentative pentru ceea ce ar fi spus grupul mai mare dacă ar fi fost întrebați toți.

Această încredere poate fi de fapt cuantificată prin teorema limitei centrale și alte rezultate matematice. Încrederea este exprimată ca o probabilitate ca rezultatul adevărat (pentru grupul mai mare) să se încadreze într-un anumit interval de estimare (cifra pentru grupul mai mic). Aceasta este cifra „plus sau minus” citată adesea pentru sondajele statistice. Partea de probabilitate a nivelului de încredere nu este de obicei menționată; dacă este așa, se presupune că este un număr standard, cum ar fi 95%.

Cele două numere sunt legate. Dacă un sondaj are o eroare estimată de ±5% la un nivel de încredere de 95%, acesta are, de asemenea, o eroare estimată de ±6,6% la un nivel de încredere de 99%. ± x {\displaystyle x}

% la un nivel de încredere de 95% este întotdeauna ± 1,32 x {\displaystyle 1,32x}.

% la un nivel de încredere de 99% pentru o populație distribuită normal.

Cu cât eroarea estimată este mai mică, cu atât eșantionul necesar este mai mare, la un anumit nivel de încredere.

la un nivel de încredere de 95,4%:

±1% ar necesita 10.000 de persoane.
±2% ar necesita 2.500 de persoane.
±3% ar necesita 1.111 persoane.
±4% ar necesita 625 de persoane.
±5% ar necesita 400 de persoane.
±10% ar necesita 100 de persoane.
±20% ar necesita 25 de persoane.
±25% ar necesita 16 persoane.
±50% ar necesita 4 persoane.

Oamenii pot presupune, deoarece cifra de încredere este omisă, că există o certitudine de 100% că rezultatul real se încadrează în eroarea estimată. Acest lucru nu este corect din punct de vedere matematic.

Multe persoane pot să nu realizeze că caracterul aleatoriu al eșantionului este foarte important. În practică, multe sondaje de opinie sunt efectuate prin telefon, ceea ce denaturează eșantionul în mai multe moduri, inclusiv excluderea persoanelor care nu au telefoane, favorizarea includerii persoanelor care au mai multe telefoane, favorizarea includerii persoanelor care sunt dispuse să participe la un sondaj telefonic în detrimentul celor care refuză etc. Eșantionarea nealeatorie face ca eroarea estimată să nu fie fiabilă.

Pe de altă parte, oamenii pot considera că statisticile sunt în mod inerent nesigure pentru că nu toată lumea este sunată sau pentru că ei înșiși nu sunt niciodată chestionați. Oamenii pot crede că este imposibil să se obțină date despre opinia a zeci de milioane de oameni doar prin sondarea câtorva mii de persoane. Acest lucru este, de asemenea, inexact. Un sondaj cu o eșantionare perfect imparțială și răspunsuri veridice are o marjă de eroare determinată matematic, care depinde doar de numărul de persoane intervievate.

Cu toate acestea, deseori se raportează doar o singură marjă de eroare pentru un sondaj. Atunci când rezultatele sunt raportate pentru subgrupuri de populație, se va aplica o marjă de eroare mai mare, dar este posibil ca acest lucru să nu fie clar. De exemplu, un sondaj efectuat pe 1000 de persoane poate conține 100 de persoane dintr-un anumit grup etnic sau economic. Rezultatele axate pe acel grup vor fi mult mai puțin fiabile decât rezultatele pentru întreaga populație. Dacă marja de eroare pentru întregul eșantion a fost de 4%, să zicem, atunci marja de eroare pentru un astfel de subgrup ar putea fi de aproximativ 13%.

Există, de asemenea, multe alte probleme de măsurare în sondajele populației.

Problemele menționate mai sus se aplică tuturor experimentelor statistice, nu doar sondajelor populației.

Informații suplimentare: Sondaj de opinie și Sondaj statistic

Falsa cauzalitateEdit

Articolul principal: Corelația nu implică cauzalitatea

Când un test statistic arată o corelație între A și B, există de obicei șase posibilități:

  1. A îl cauzează pe B.
  2. B îl cauzează pe A.
  3. A și B se cauzează reciproc parțial.
  4. A și B sunt amândouă cauzate de un al treilea factor, C.
  5. B este cauzat de C care este corelat cu A.
  6. Corelația observată s-a datorat pur și simplu întâmplării.

Cea de-a șasea posibilitate poate fi cuantificată prin teste statistice care pot calcula probabilitatea ca corelația observată să fie la fel de mare ca și cum ar fi doar din întâmplare dacă, de fapt, nu există nicio relație între variabile. Cu toate acestea, chiar dacă această posibilitate are o probabilitate mică, mai există încă celelalte cinci.

Dacă numărul de persoane care cumpără înghețată pe plajă este legat statistic de numărul de persoane care se îneacă pe plajă, atunci nimeni nu va susține că înghețata cauzează înecul, deoarece este evident că nu este așa. (În acest caz, atât înecul cât și cumpărarea de înghețată sunt în mod clar legate de un al treilea factor: numărul de oameni de pe plajă).

Acest fals poate fi folosit, de exemplu, pentru a dovedi că expunerea la o substanță chimică provoacă cancer. Înlocuiți „numărul de persoane care cumpără înghețată” cu „numărul de persoane expuse la substanța chimică X” și „numărul de persoane care se îneacă” cu „numărul de persoane care se îmbolnăvesc de cancer”, și mulți oameni vă vor crede. Într-o astfel de situație, poate exista o corelație statistică, chiar dacă nu există un efect real. De exemplu, dacă există percepția că un sit chimic este „periculos” (chiar dacă în realitate nu este), valoarea proprietăților din zonă va scădea, ceea ce va atrage mai multe familii cu venituri mici să se mute în acea zonă. Dacă familiile cu venituri mici au mai multe șanse de a face cancer decât familiile cu venituri mari (din cauza unei diete mai sărace, de exemplu, sau a unui acces mai redus la asistență medicală), atunci ratele de cancer vor crește, chiar dacă substanța chimică în sine nu este periculoasă. Se crede că exact acest lucru s-a întâmplat cu unele dintre primele studii care au arătat o legătură între CEM (câmpurile electromagnetice) de la liniile de înaltă tensiune și cancer.

În studiile bine concepute, efectul de cauzalitate falsă poate fi eliminat prin repartizarea aleatorie a unor persoane într-un „grup de tratament” și a altora într-un „grup de control”, precum și prin acordarea tratamentului grupului de tratament și neacordarea tratamentului grupului de control. În exemplul de mai sus, un cercetător ar putea să expună un grup de persoane la substanța chimică X și să lase un al doilea grup neexpus. Dacă primul grup a avut rate mai mari de cancer, cercetătorul știe că nu există un al treilea factor care a influențat dacă o persoană a fost expusă sau nu, deoarece a controlat cine a fost expus sau nu, iar el a repartizat persoanele în grupurile expuse și neexpuse la întâmplare. Cu toate acestea, în multe aplicații, realizarea efectivă a unui experiment în acest mod este fie prohibitiv de costisitoare, fie nefezabilă, neetică, ilegală sau pur și simplu imposibilă. De exemplu, este foarte puțin probabil ca un IRB să accepte un experiment care implică expunerea intenționată a oamenilor la o substanță periculoasă pentru a testa toxicitatea acesteia. Implicațiile etice evidente ale unor astfel de tipuri de experimente limitează capacitatea cercetătorilor de a testa empiric cauzalitatea.

Dovada ipotezei nuleEdit

Într-un test statistic, ipoteza nulă ( H 0 {\displaystyle H_{0}}

) este considerată valabilă până când suficiente date dovedesc că este greșită. Atunci H 0 {\displaystyle H_{0}}

este respinsă, iar ipoteza alternativă ( H A {\displaystyle H_{A}}

) este considerată a fi dovedită ca fiind corectă. Din întâmplare, acest lucru se poate întâmpla, deși H 0 {\displaystyle H_{0}}

este adevărată, cu o probabilitate notată α {\displaystyle \alpha }

(nivelul de semnificație). Acest lucru poate fi comparat cu procesul judiciar, în care acuzatul este considerat nevinovat ( H 0 {\displaystyle H_{0}}

) până când se dovedește că este vinovat ( H A {\displaystyle H_{A}}

) dincolo de orice îndoială rezonabilă ( α {\displaystyle \alpha }

).

Dar dacă datele nu ne oferă suficiente dovezi pentru a respinge faptul că H 0 {\displaystyle H_{0}}

, acest lucru nu dovedește în mod automat că H 0 {\displaystyle H_{0}}

este corectă. Dacă, de exemplu, un producător de tutun dorește să demonstreze că produsele sale sunt sigure, acesta poate efectua cu ușurință un test cu un eșantion mic de fumători față de un eșantion mic de nefumători. Este puțin probabil ca vreunul dintre ei să dezvolte cancer la plămâni (și chiar dacă o va face, diferența dintre grupuri trebuie să fie foarte mare pentru a respinge H 0 {\displaystyle H_{0}}.

). Prin urmare, este probabil – chiar și atunci când fumatul este periculos – că testul nostru nu va respinge H 0 {\displaystyle H_{0}}.

. În cazul în care H 0 {\displaystyle H_{0}}

este acceptată, nu rezultă automat că fumatul se dovedește a fi inofensiv. Testul are putere insuficientă pentru a respinge H 0 {\displaystyle H_{0}}

, deci testul este inutil, iar valoarea „dovezii” lui H 0 {\displaystyle H_{0}}

este, de asemenea, nulă.

Acest lucru poate – folosind analogia judiciară de mai sus – să fie comparat cu acuzatul cu adevărat vinovat care este eliberat doar pentru că dovada nu este suficientă pentru un verdict de vinovăție. Acest lucru nu dovedește nevinovăția acuzatului, ci doar că nu există suficiente dovezi pentru un verdict de vinovăție.

„…ipoteza nulă nu este niciodată dovedită sau stabilită, dar este eventual infirmată, în cursul experimentării. Se poate spune că fiecare experiment există doar pentru a da faptelor o șansă de a infirma ipoteza nulă.” (Fisher în The Design of Experiments) Există multe motive de confuzie, inclusiv utilizarea logicii dublei negații și a terminologiei care rezultă din fuziunea „testării semnificației” lui Fisher (în care ipoteza nulă nu este niciodată acceptată) cu „testarea ipotezelor” (în care o anumită ipoteză este întotdeauna acceptată).

Confundarea semnificației statistice cu semnificația practicăEdit

Semnificația statistică este o măsură a probabilității; semnificația practică este o măsură a efectului. O cură de calviție este semnificativă din punct de vedere statistic dacă un puf de piersică rară acoperă de obicei scalpul anterior gol. Cura este semnificativă din punct de vedere practic atunci când nu mai este necesară o pălărie pe vreme rece și când frizerul întreabă cât de mult trebuie să scoată din vârf. Cei chelioși doresc un leac care să fie semnificativ atât statistic, cât și practic; Probabil că va funcționa și, dacă va funcționa, va avea un mare efect păros. Publicarea științifică necesită adesea doar semnificația statistică. Acest lucru a dus la plângeri (în ultimii 50 de ani) că testarea semnificației statistice este o utilizare greșită a statisticii.

Dragaj de dateEdit

Articolul principal: Dragarea de date

Dragarea de date este un abuz al extragerii de date. În dragarea de date, compilații mari de date sunt examinate pentru a găsi o corelație, fără o alegere predefinită a unei ipoteze care să fie testată. Deoarece intervalul de încredere necesar pentru a stabili o relație între doi parametri este de obicei ales ca fiind de 95% (ceea ce înseamnă că există 95% șanse ca relația observată să nu se datoreze hazardului), există astfel 5% șanse de a găsi o corelație între oricare două seturi de variabile complet aleatoare. Având în vedere că eforturile de dragare a datelor examinează de obicei seturi mari de date cu multe variabile și, prin urmare, un număr și mai mare de perechi de variabile, este aproape sigur că orice astfel de studiu va găsi rezultate false, dar aparent semnificative din punct de vedere statistic.

Rețineți că dragarea datelor este o modalitate validă de a găsi o ipoteză posibilă, dar această ipoteză trebuie apoi testată cu date care nu au fost utilizate în dragarea inițială. Abuzul intervine atunci când acea ipoteză este declarată ca fapt fără o validare suplimentară.

„Nu puteți testa în mod legitim o ipoteză pe aceleași date care au sugerat inițial acea ipoteză. Remediul este clar. Odată ce aveți o ipoteză, concepeți un studiu pentru a căuta în mod specific efectul pe care acum credeți că există. Dacă rezultatul acestui test este semnificativ din punct de vedere statistic, aveți, în sfârșit, dovezi reale.”

Manipularea datelorEdit

A nu se confunda cu Prelucrarea datelor, Pregătirea datelor sau Manipularea datelor, termeni care se suprapun și care sunt adesea denumiți în general „manipulare de date”.

Denumit informal „fudging the data”, această practică include raportarea selectivă (a se vedea, de asemenea, părtinire de publicare) și chiar pur și simplu inventarea de date false.

Exemplele de raportare selectivă abundă. Cele mai ușoare și mai comune exemple implică alegerea unui grup de rezultate care urmează un tipar în concordanță cu ipoteza preferată, în timp ce se ignoră alte rezultate sau „serii de date” care contrazic ipoteza.

Cercetătorii în domeniul psihic au contestat de mult timp studiile care arată că există persoane cu abilități ESP. Criticii îi acuză pe susținătorii ESP de a publica doar experimentele cu rezultate pozitive și de a le pune la păstrare pe cele care arată rezultate negative. Un „rezultat pozitiv” este un test (sau o serie de date) în care subiectul ghicește o carte ascunsă, etc., cu o frecvență mult mai mare decât cea a întâmplării.

Științii, în general, pun la îndoială validitatea rezultatelor studiilor care nu pot fi reproduse de alți cercetători. Cu toate acestea, unii oameni de știință refuză să își publice datele și metodele.

Manipularea datelor este o problemă/considerare serioasă în cele mai oneste analize statistice. Datele aberante, datele lipsă și non-normalitatea pot afecta negativ validitatea analizei statistice. Este indicat să se studieze datele și să se repare problemele reale înainte de a începe analiza. „n orice diagramă de împrăștiere vor exista câteva puncte mai mult sau mai puțin detașate de partea principală a norului: aceste puncte trebuie respinse numai pentru cauză.”

Alte eroriEdit

Pseudoreplicarea este o eroare tehnică asociată cu analiza varianței. Complexitatea ascunde faptul că se încearcă o analiză statistică pe un singur eșantion (N=1). Pentru acest caz degenerat, varianța nu poate fi calculată (împărțire la zero). Un (N=1) va oferi întotdeauna cercetătorului cea mai mare corelație statistică între prejudecata intenției și constatările reale.

Falimentul jucătorului presupune că un eveniment pentru care poate fi măsurată o probabilitate viitoare a avut aceeași probabilitate de a se întâmpla odată ce a avut deja loc. Astfel, dacă cineva a aruncat deja 9 monede și fiecare a ieșit cap, oamenii au tendința de a presupune că probabilitatea ca a zecea aruncare să fie tot cap este de 1023 la 1 contra (ceea ce era înainte de aruncarea primei monede) când, de fapt, șansa ca al zecelea cap să fie cap este de 50% (presupunând că moneda este imparțială).

Falimentul procurorului a dus, în Marea Britanie, la condamnarea pe nedrept a lui Sally Clark pentru uciderea celor doi fii ai săi. În instanță, probabilitatea statistică scăzută (1 la 73 de milioane) ca cei doi copii ai femeii să moară din cauza sindromului morții subite a sugarului, dată de profesorul Sir Roy Meadow, a fost interpretată greșit pentru a sugera o probabilitate scăzută de nevinovăție a acesteia. Chiar dacă probabilitatea oferită de o dublă SMIS, care a fost ulterior pusă sub semnul întrebării de Societatea Regală de Statistică, ar fi corectă, trebuie să se pună în balanță toate explicațiile posibile pentru a se ajunge la o concluzie cu privire la cea mai probabilă cauză a morții inexplicabile a celor doi copii. Datele disponibile sugerează că șansele ar fi de nouă ori mai mari în favoarea unui dublu SMIS decât a unei duble omucideri”. Condamnarea lui Sally Clark a fost în cele din urmă anulată.

Falimentul ludic. Probabilitățile se bazează pe modele simple care ignoră posibilitățile reale (chiar dacă îndepărtate). Jucătorii de poker nu iau în considerare faptul că un adversar poate extrage o armă în loc de o carte. Asigurații (și guvernele) presupun că asigurătorii vor rămâne solvabili, dar vezi AIG și riscul sistemic.

Alte tipuri de utilizare greșităEdit

Alte utilizări greșite includ compararea merelor cu portocalele, utilizarea unei medii greșite, regresia spre medie și sintagma umbrelă garbage in, garbage out. Unele statistici sunt pur și simplu irelevante pentru o problemă.

Cartetul lui Anncombe este un set de date inventat care exemplifică deficiențele statisticii descriptive simple (și valoarea reprezentării grafice a datelor înainte de analiza numerică).

.

admin

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg