Scartare le osservazioni sfavorevoliModifica

Vedi anche: Publication bias

Tutto quello che un’azienda deve fare per promuovere un prodotto neutro (inutile) è trovare o condurre, per esempio, 40 studi con un livello di fiducia del 95%. Se il prodotto è davvero inutile, questo produrrebbe in media uno studio che dimostra che il prodotto è benefico, uno studio che dimostra che è dannoso e trentotto studi inconcludenti (38 sono il 95% di 40). Questa tattica diventa più efficace quanto più studi sono disponibili. Le organizzazioni che non pubblicano tutti gli studi che effettuano, come le compagnie del tabacco che negano un legame tra fumo e cancro, i gruppi di difesa antifumo e i media che cercano di provare un legame tra il fumo e vari disturbi, o i venditori di pillole miracolose, probabilmente useranno questa tattica.

Ronald Fisher considerò questo problema nel suo famoso esperimento di esempio di tè da degustazione per donne (dal suo libro del 1935, The Design of Experiments). Riguardo agli esperimenti ripetuti disse: “Sarebbe chiaramente illegittimo, e deruberebbe il nostro calcolo della sua base, se i risultati non riusciti non fossero tutti messi in conto.”

Un altro termine legato a questo concetto è cherry picking.

Ignorare le caratteristiche importantiModifica

I dataset multivariabili hanno due o più caratteristiche/dimensioni. Se troppo poche di queste caratteristiche vengono scelte per l’analisi (per esempio, se viene scelta solo una caratteristica e viene eseguita una semplice regressione lineare invece di una regressione lineare multipla), i risultati possono essere fuorvianti. Questo lascia l’analista vulnerabile a uno dei vari paradossi statistici, o in alcuni (non tutti) casi di falsa causalità come sotto.

Domande caricateModifica

Articolo principale: Domanda caricata

Le risposte ai sondaggi possono spesso essere manipolate formulando la domanda in modo tale da indurre una prevalenza verso una certa risposta da parte dell’intervistato. Per esempio, nel sondaggio sul sostegno a una guerra, le domande:

  • Siete favorevoli al tentativo degli Stati Uniti di portare libertà e democrazia in altri luoghi del mondo?
  • Siete favorevoli all’azione militare non provocata degli Stati Uniti?

probabilmente i dati saranno distorti in direzioni diverse, anche se entrambi i sondaggi riguardano il sostegno alla guerra. Un modo migliore di formulare la domanda potrebbe essere “Appoggia l’attuale azione militare degli USA all’estero? Un modo ancora più quasi neutrale di porre la domanda è “Qual è la sua opinione sull’attuale azione militare degli Stati Uniti all’estero? Il punto dovrebbe essere che la persona interrogata non ha modo di indovinare dalla formulazione ciò che l’interrogante potrebbe voler sentire.

Un altro modo per farlo è far precedere la domanda da informazioni che supportino la risposta “desiderata”. Per esempio, più persone probabilmente risponderanno “sì” alla domanda “Dato il crescente peso delle tasse sulle famiglie della classe media, sei a favore di tagli alle imposte sul reddito?” che alla domanda “Considerando il crescente deficit del bilancio federale e il disperato bisogno di maggiori entrate, sei a favore di tagli alle imposte sul reddito?”

La corretta formulazione delle domande può essere molto sottile. Le risposte a due domande possono variare drammaticamente a seconda dell’ordine in cui vengono poste. Un sondaggio che chiedeva del “possesso di azioni” ha trovato che la maggior parte degli allevatori texani possedevano azioni, anche se probabilmente non del tipo scambiato alla Borsa di New York.”

SoprageneralizzazioneModifica

La sovrageneralizzazione è un errore che si verifica quando una statistica su una particolare popolazione è affermata come valida tra i membri di un gruppo per il quale la popolazione originale non è un campione rappresentativo.

Per esempio, supponiamo che il 100% delle mele siano rosse in estate. L’affermazione “Tutte le mele sono rosse” sarebbe un caso di sovrageneralizzazione perché la statistica originale era vera solo per un sottoinsieme specifico di mele (quelle d’estate), che non ci si aspetta sia rappresentativo della popolazione di mele nel suo complesso.

Un esempio nel mondo reale della fallacia della sovrageneralizzazione può essere osservato come un artefatto delle moderne tecniche di sondaggio, che vietano di chiamare i telefoni cellulari per i sondaggi politici al telefono. Poiché i giovani sono più propensi di altri gruppi demografici a non avere un telefono convenzionale “fisso”, un sondaggio telefonico che indaga esclusivamente sugli intervistati che chiamano i telefoni fissi, può far sì che i risultati del sondaggio sotto-campionino le opinioni dei giovani, se non vengono prese altre misure per tenere conto di questa distorsione del campionamento. Così, un sondaggio che esamina le preferenze di voto dei giovani utilizzando questa tecnica può non essere una rappresentazione perfettamente accurata delle vere preferenze di voto dei giovani nel loro insieme senza sovrageneralizzare, perché il campione utilizzato esclude i giovani che portano solo telefoni cellulari, che possono o non possono avere preferenze di voto che differiscono dal resto della popolazione.

La sovrageneralizzazione si verifica spesso quando l’informazione è passata attraverso fonti non tecniche, in particolare i mass media.

Campioni distortiModifica

Articolo principale: Campione distorto

Gli scienziati hanno imparato a caro prezzo che raccogliere buoni dati sperimentali per l’analisi statistica è difficile. Esempio: L’effetto placebo (la mente sul corpo) è molto potente. Il 100% dei soggetti ha sviluppato un’eruzione cutanea quando è stato esposto a una sostanza inerte che è stata falsamente chiamata edera velenosa, mentre pochi hanno sviluppato un’eruzione cutanea a un oggetto “innocuo” che era davvero edera velenosa. I ricercatori combattono questo effetto con esperimenti comparativi randomizzati in doppio cieco. Gli statistici in genere si preoccupano più della validità dei dati che dell’analisi. Questo si riflette in un campo di studio all’interno della statistica conosciuto come il disegno degli esperimenti.

I sondaggisti hanno imparato a caro prezzo che raccogliere buoni dati per l’analisi statistica è difficile. L’effetto selettivo dei telefoni cellulari sulla raccolta dei dati (discusso nella sezione Sovrageneralizzazione) è un potenziale esempio; se i giovani con telefoni tradizionali non sono rappresentativi, il campione può essere distorto. Le indagini campionarie hanno molte insidie e richiedono grande attenzione nell’esecuzione. Uno sforzo ha richiesto quasi 3000 telefonate per ottenere 1000 risposte. Il semplice campione casuale della popolazione “non è semplice e potrebbe non essere casuale.”

Riferimento errato o incomprensione dell’errore stimatoModifica

Se un team di ricerca vuole sapere come si sentono 300 milioni di persone su un certo argomento, sarebbe poco pratico chiedere a tutti loro. Tuttavia, se il team sceglie un campione casuale di circa 1000 persone, può essere abbastanza certo che i risultati forniti da questo gruppo siano rappresentativi di ciò che il gruppo più grande avrebbe detto se fossero stati interpellati tutti.

Questa fiducia può effettivamente essere quantificata dal teorema del limite centrale e da altri risultati matematici. La fiducia è espressa come una probabilità che il vero risultato (per il gruppo più grande) sia entro un certo intervallo della stima (la cifra per il gruppo più piccolo). Questa è la cifra “più o meno” spesso citata per le indagini statistiche. La parte di probabilità del livello di fiducia di solito non è menzionata; se è così, si presume che sia un numero standard come il 95%.

I due numeri sono correlati. Se un sondaggio ha un errore stimato di ±5% al 95% di confidenza, ha anche un errore stimato di ±6,6% al 99% di confidenza. ± x {\displaystyle x}

% al 95% di confidenza è sempre ± 1,32 x {\displaystyle 1,32x}

% al 99% di confidenza per una popolazione distribuita normalmente.

Più piccolo è l’errore stimato, più grande è il campione richiesto, ad un dato livello di confidenza.

al 95,4% di confidenza:

±1% richiede 10.000 persone.
±2% richiede 2.500 persone.
±3% richiede 1.111 persone.
±4% richiede 625 persone.
±5% richiede 400 persone.
±10% richiede 100 persone.
±20% richiederebbe 25 persone.
±25% richiederebbe 16 persone.
±50% richiederebbe 4 persone.

Le persone possono supporre, perché la cifra di fiducia è omessa, che ci sia una certezza del 100% che il vero risultato sia entro l’errore stimato. Questo non è matematicamente corretto.

Molte persone potrebbero non rendersi conto che la casualità del campione è molto importante. In pratica, molti sondaggi d’opinione sono condotti per telefono, il che distorce il campione in diversi modi, compresa l’esclusione delle persone che non hanno un telefono, favorendo l’inclusione delle persone che hanno più di un telefono, favorendo l’inclusione delle persone che sono disposte a partecipare a un sondaggio telefonico rispetto a quelle che rifiutano, ecc. Il campionamento non casuale rende l’errore stimato inaffidabile.

D’altra parte, le persone possono considerare che le statistiche sono intrinsecamente inaffidabili perché non tutti vengono chiamati, o perché loro stessi non vengono mai intervistati. La gente può pensare che è impossibile ottenere dati sull’opinione di decine di milioni di persone sondando solo poche migliaia. Anche questo è impreciso. Un sondaggio con un campionamento perfettamente imparziale e risposte veritiere ha un margine di errore matematicamente determinato, che dipende solo dal numero di persone intervistate.

Tuttavia, spesso viene riportato solo un margine di errore per un sondaggio. Quando i risultati sono riportati per sottogruppi di popolazione, si applica un margine di errore più grande, ma questo può non essere chiarito. Per esempio, un sondaggio di 1000 persone può contenere 100 persone di un certo gruppo etnico o economico. I risultati che si concentrano su quel gruppo saranno molto meno affidabili dei risultati per l’intera popolazione. Se il margine di errore per l’intero campione era del 4%, diciamo, allora il margine di errore per tale sottogruppo potrebbe essere intorno al 13%.

Ci sono anche molti altri problemi di misurazione nei sondaggi sulla popolazione.

I problemi menzionati sopra si applicano a tutti gli esperimenti statistici, non solo ai sondaggi sulla popolazione.

Altre informazioni: Sondaggio d’opinione e Sondaggio statistico

Falsa causalitàModifica

Articolo principale: La correlazione non implica causalità

Quando un test statistico mostra una correlazione tra A e B, ci sono di solito sei possibilità:

  1. A causa B.
  2. B causa A.
  3. A e B si causano in parte a vicenda.
  4. A e B sono entrambi causati da un terzo fattore, C.
  5. B è causato da C che è correlato ad A.
  6. La correlazione osservata è dovuta solo al caso.

La sesta possibilità può essere quantificata da test statistici che possono calcolare la probabilità che la correlazione osservata sia così grande come lo è solo per caso se, in effetti, non c’è alcuna relazione tra le variabili. Tuttavia, anche se questa possibilità ha una piccola probabilità, ci sono ancora le altre cinque.

Se il numero di persone che comprano il gelato in spiaggia è statisticamente correlato al numero di persone che annegano in spiaggia, allora nessuno affermerebbe che il gelato causa l’annegamento perché è ovvio che non è così. (In questo caso, sia l’annegamento che l’acquisto del gelato sono chiaramente correlati da un terzo fattore: il numero di persone in spiaggia).

Questa fallacia può essere usata, per esempio, per dimostrare che l’esposizione a una sostanza chimica causa il cancro. Sostituite “numero di persone che comprano il gelato” con “numero di persone esposte alla sostanza chimica X”, e “numero di persone che annegano” con “numero di persone che si ammalano di cancro”, e molte persone vi crederanno. In una tale situazione, ci può essere una correlazione statistica anche se non c’è un effetto reale. Per esempio, se c’è la percezione che un sito chimico è “pericoloso” (anche se in realtà non lo è) i valori delle proprietà nella zona diminuiranno, il che spingerà più famiglie a basso reddito a trasferirsi in quella zona. Se le famiglie a basso reddito hanno più probabilità di ammalarsi di cancro rispetto alle famiglie ad alto reddito (a causa di una dieta più povera, per esempio, o di un minore accesso alle cure mediche) allora i tassi di cancro saliranno, anche se la sostanza chimica in sé non è pericolosa. Si ritiene che questo sia esattamente quello che è successo con alcuni dei primi studi che hanno mostrato un legame tra EMF (campi elettromagnetici) da linee elettriche e il cancro.

In studi ben progettati, l’effetto di falsa causalità può essere eliminato assegnando alcune persone in un “gruppo di trattamento” e alcune persone in un “gruppo di controllo” a caso, e dando il trattamento al gruppo di trattamento e non dando il trattamento al gruppo di controllo. Nell’esempio precedente, un ricercatore potrebbe esporre un gruppo di persone alla sostanza chimica X e lasciare un secondo gruppo non esposto. Se il primo gruppo ha avuto tassi di cancro più alti, il ricercatore sa che non c’è un terzo fattore che ha influenzato il fatto che una persona sia stata esposta perché ha controllato chi è stato esposto o meno, e ha assegnato le persone ai gruppi esposti e non esposti a caso. Tuttavia, in molte applicazioni, fare un esperimento in questo modo è proibitivamente costoso, non fattibile, non etico, illegale o del tutto impossibile. Per esempio, è altamente improbabile che un IRB accetti un esperimento che implichi l’esposizione intenzionale di persone a una sostanza pericolosa per testarne la tossicità. Le ovvie implicazioni etiche di tali tipi di esperimenti limitano la capacità dei ricercatori di testare empiricamente la causalità.

Prova dell’ipotesi nullaModifica

In un test statistico, l’ipotesi nulla ( H 0 {\displaystyle H_{0}}

) è considerata valida finché un numero sufficiente di dati non la dimostra errata. Quindi H 0 {displaystyle H_{0}}

viene rifiutata e l’ipotesi alternativa ( H A {displaystyle H_{A}}

) viene considerata corretta. Per caso questo può accadere, anche se H 0 {displaystyle H_{0}

sia vero, con una probabilità denotata α {displaystyle \alpha }

(il livello di significatività). Questo può essere paragonato al processo giudiziario, dove l’accusato è considerato innocente ( H 0 {displaystyle H_{0}}

) fino a quando non si dimostra che è colpevole ( H A {displaystyle H_{A}}

) oltre ogni ragionevole dubbio ( α {displaystyle \alpha }

).

Ma se i dati non ci danno prove sufficienti per rifiutare che H 0 {displaystyle H_{0}}

, questo non prova automaticamente che H 0 {displaystyle H_{0}

è corretto. Se, per esempio, un produttore di tabacco vuole dimostrare che i suoi prodotti sono sicuri, può facilmente condurre un test con un piccolo campione di fumatori contro un piccolo campione di non fumatori. È improbabile che qualcuno di loro svilupperà il cancro ai polmoni (e anche se lo fanno, la differenza tra i gruppi deve essere molto grande per rifiutare H 0 {\displaystyle H_{0}}

). Pertanto, è probabile – anche quando il fumo è pericoloso – che il nostro test non rigetti H 0 {displaystyle H_{0}}

. Se H 0 {displaystyle H_{0}}

è accettata, non ne consegue automaticamente che il fumo è dimostrato innocuo. Il test ha una potenza insufficiente per rifiutare H 0 {displaystyle H_{0}}

, quindi il test è inutile e il valore della “prova” di H 0 {displaystyle H_{0}}

è anch’esso nullo.

Questo può – utilizzando l’analogo giudiziario di cui sopra – essere paragonato all’imputato veramente colpevole che viene rilasciato solo perché la prova non è sufficiente per un verdetto di colpevolezza. Questo non prova l’innocenza dell’imputato, ma solo che non ci sono prove sufficienti per un verdetto di colpevolezza.

“…l’ipotesi nulla non è mai dimostrata o stabilita, ma è eventualmente confutata, nel corso della sperimentazione. Si può dire che ogni esperimento esiste solo per dare ai fatti la possibilità di confutare l’ipotesi nulla”. (Fisher in The Design of Experiments) Esistono molte ragioni di confusione, compreso l’uso della logica della doppia negazione e la terminologia derivante dalla fusione del “test di significatività” di Fisher (dove l’ipotesi nulla non è mai accettata) con il “test di ipotesi” (dove qualche ipotesi è sempre accettata).

Confondere la significatività statistica con la significatività praticaModifica

La significatività statistica è una misura di probabilità; la significatività pratica è una misura di effetto. Una cura della calvizie è statisticamente significativa se una rada peluria copre abitualmente il cuoio capelluto precedentemente nudo. La cura è praticamente significativa quando un cappello non è più necessario nella stagione fredda e il barbiere chiede quanto togliere dalla cima. I calvi vogliono una cura che sia statisticamente e praticamente significativa; probabilmente funzionerà e se lo farà, avrà un grande effetto peloso. La pubblicazione scientifica spesso richiede solo la significatività statistica. Questo ha portato a lamentele (negli ultimi 50 anni) che il test di significatività statistica è un uso improprio della statistica.

Data dredgingEdit

Articolo principale: Data dredging

Il data dredging è un abuso del data mining. Nel data dredging, grandi compilazioni di dati vengono esaminate per trovare una correlazione, senza alcuna scelta predefinita di un’ipotesi da testare. Poiché l’intervallo di confidenza richiesto per stabilire una relazione tra due parametri è di solito scelto al 95% (il che significa che c’è un 95% di possibilità che la relazione osservata non sia dovuta al caso), c’è quindi un 5% di possibilità di trovare una correlazione tra qualsiasi due serie di variabili completamente casuali. Dato che gli sforzi di dragaggio dei dati tipicamente esaminano grandi insiemi di dati con molte variabili, e quindi un numero ancora maggiore di coppie di variabili, risultati spuri ma apparentemente statisticamente significativi sono quasi certi di essere trovati da qualsiasi studio del genere.

Nota che il dragaggio dei dati è un modo valido per trovare una possibile ipotesi, ma quell’ipotesi deve poi essere testata con dati non utilizzati nel dragaggio originale. L’abuso avviene quando quell’ipotesi è dichiarata come un fatto senza ulteriore convalida.

“Non si può legittimamente testare un’ipotesi sugli stessi dati che hanno suggerito per primi quell’ipotesi. Il rimedio è chiaro. Una volta che avete un’ipotesi, progettate uno studio per cercare specificamente l’effetto che ora pensate ci sia. Se il risultato di questo test è statisticamente significativo, avete finalmente una vera prova.”

Manipolazione dei datiModifica

Da non confondere con Elaborazione dei dati, Preparazione dei dati o Manipolazione dei dati, termini che si sovrappongono e ai quali ci si riferisce spesso in generale come “manipolazione dei dati”.

Informalmente chiamato “falsificare i dati”, questa pratica include la segnalazione selettiva (vedi anche publication bias) e anche semplicemente la creazione di dati falsi.

Gli esempi di segnalazione selettiva abbondano. Gli esempi più semplici e comuni coinvolgono la scelta di un gruppo di risultati che seguono un modello coerente con l’ipotesi preferita, ignorando altri risultati o “serie di dati” che contraddicono l’ipotesi.

I ricercatori psichici hanno a lungo contestato gli studi che mostrano persone con capacità ESP. I critici accusano i sostenitori dell’ESP di pubblicare solo esperimenti con risultati positivi e di accantonare quelli che mostrano risultati negativi. Un “risultato positivo” è un test (o una serie di dati) in cui il soggetto indovina una carta nascosta, ecc. con una frequenza molto più alta del caso casuale.

Gli scienziati, in generale, mettono in dubbio la validità dei risultati di studi che non possono essere riprodotti da altri ricercatori. Tuttavia, alcuni scienziati si rifiutano di pubblicare i loro dati e metodi.

La manipolazione dei dati è un serio problema/considerazione nella più onesta delle analisi statistiche. I valori anomali, i dati mancanti e la non normalità possono influenzare negativamente la validità dell’analisi statistica. È opportuno studiare i dati e riparare i problemi reali prima di iniziare l’analisi. “In qualsiasi diagramma di dispersione ci saranno alcuni punti più o meno staccati dalla parte principale della nuvola: questi punti dovrebbero essere scartati solo per causa.”

Altre fallacieModifica

La pseudoreplicazione è un errore tecnico associato all’analisi della varianza. La complessità nasconde il fatto che l’analisi statistica viene tentata su un solo campione (N=1). Per questo caso degenerato la varianza non può essere calcolata (divisione per zero). Un (N=1) darà sempre al ricercatore la più alta correlazione statistica tra la distorsione dell’intento e i risultati effettivi.

La fallacia del giocatore d’azzardo presuppone che un evento per il quale è possibile misurare una probabilità futura abbia la stessa probabilità di accadere una volta che si è già verificato. Così, se qualcuno ha già lanciato 9 monete e ognuna è uscita testa, le persone tendono ad assumere che la probabilità che anche il decimo lancio sia testa è 1023 a 1 contro (che era prima che la prima moneta fosse lanciata) quando in realtà la probabilità della decima testa è del 50% (assumendo che la moneta sia imparziale).

La fallacia del procuratore ha portato, nel Regno Unito, Sally Clark ad essere erroneamente condannata per aver ucciso i suoi due figli. In tribunale la bassa probabilità statistica (1 su 73 milioni) che i due figli di una donna morissero per la Sindrome della Morte Infantile Improvvisa data dal professor Sir Roy Meadow è stata interpretata erroneamente per suggerire una bassa probabilità della sua innocenza. Anche se la probabilità fornita di una doppia SIDS, che è stata poi messa in dubbio dalla Royal Statistical Society, fosse corretta, bisogna soppesare tutte le possibili spiegazioni l’una contro l’altra per trarre una conclusione su quale sia la più probabile causa della morte inspiegabile dei due bambini. I dati disponibili suggeriscono che le probabilità sarebbero a favore della doppia SIDS rispetto al doppio omicidio di un fattore nove”. La condanna di Sally Clark fu infine ribaltata.

La fallacia ludica. Le probabilità si basano su modelli semplici che ignorano le possibilità reali (anche se remote). I giocatori di poker non considerano che un avversario può estrarre una pistola piuttosto che una carta. Gli assicurati (e i governi) presumono che gli assicuratori rimarranno solvibili, ma vedi AIG e il rischio sistemico.

Altri tipi di uso improprioModifica

Altri usi impropri includono il paragonare mele e arance, l’uso della media sbagliata, la regressione verso la media e la frase ombrello garbage in, garbage out. Alcune statistiche sono semplicemente irrilevanti per un problema.

Il quartetto di Anscombe è un set di dati inventato che esemplifica le carenze della semplice statistica descrittiva (e il valore del grafico dei dati prima dell’analisi numerica).

admin

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg