Nel mondo reale, i dati mancanti sono un problema quasi inevitabile. Solo pochi possono evitarlo – di solito attraverso grandi investimenti nella raccolta dei dati. Questo problema è cruciale perché il modo in cui gestiamo i dati mancanti ha un impatto diretto sui nostri risultati, e si ripercuote anche sulla gestione del tempo. Pertanto, dovrebbe essere sempre una priorità gestire correttamente i dati mancanti, il che può essere molto più difficile di quanto sembri. La difficoltà sorge quando ci rendiamo conto che non tutti i dati mancanti sono creati uguali solo perché sembrano tutti uguali – uno spazio vuoto – e che diversi tipi di dati mancanti devono essere gestiti in modo diverso. In questo articolo, esaminiamo i tipi di dati mancanti, così come i metodi di base e avanzati per affrontarli.

Tipi di dati mancanti

L’unità di non risposta si riferisce a intere righe di dati mancanti. Un esempio di questo potrebbe essere la gente che sceglie di non compilare il censimento. In questo caso, non vediamo necessariamente i Fans nei nostri dati, ma sappiamo che ci sono valori mancanti perché sappiamo come è fatta la popolazione reale degli USA.

I metodi di imputazione includono: Aggiustamenti Peso-Classe.

2.Item Non-Response

Item Non-Response è ciò che la maggior parte delle persone pensa come valori mancanti. Questo è quando specifiche celle di una colonna sono mancanti, e la quantità di dati mancanti può assumere qualsiasi percentuale della colonna (consiglio la libreria missingno per visualizzare questo).

I metodi di imputazione includono (dal più semplice al più avanzato): Imputazione deduttiva, Imputazione media/media/modale, Imputazione a caldo, Imputazione basata sul modello, Regressione stocastica corretta multipla, e l’approccio del sottomodello Pattern.

Scegliere il metodo appropriato per i vostri dati dipenderà dal tipo di non-risposta dell’item che dovete affrontare. Queste sono le possibili categorie:

A.MCAR

MCAR sta per Missing Completely at Random. Questo accade quando i valori mancanti sono mancanti indipendentemente da tutte le caratteristiche e dall’obiettivo (incluso se stesso). Questo significa che non c’è una differenza sistematica tra i dati mancanti e quelli disponibili.

B. MAR

MAR sta per Missing at Random. Questo si verifica quando il valore mancante dipende da una variabile, ma è indipendente da se stesso. Per esempio, se stiamo raccogliendo dati sulla qualità dell’acqua e abbiamo un giorno in cui il nostro sensore si rompe, allora i valori mancanti dipenderanno dalla data. Tuttavia, sono completamente indipendenti da se stessi (cioè ci manca il pH perché il sensore si è rotto per un giorno, e non perché c’era un pH che il censore non è in grado di leggere). Qui, non c’è ancora una differenza sistematica tra i dati che abbiamo o non abbiamo.

C.MNAR

MNAR sta per Missing Not at Random. Questo è il caso in cui la mancanza di un valore dipende dal valore stesso. Qui, i dati disponibili e i dati mancanti sono sistematicamente diversi. Per esempio, nei sondaggi, le persone con redditi più bassi hanno meno probabilità di rispondere alle domande su quanto guadagnano, e quindi i valori più bassi sono mancanti perché sono bassi.

Regolazioni per classi di peso

  • Pro: Veloce – Molto utile quando la raccolta dei dati è sbilanciata sulle classi.
  • Contro: Richiede una conoscenza preliminare della distribuzione dei dati – Richiede alcuni dati per ogni categoria in un set di dati – Suscettibile agli outlier – Può aumentare la varianza delle stime.
  • Gestisce: Unità Non Risposta.

Come suggerisce il nome, questo metodo prende i dati che abbiamo a disposizione e li ripesa in base alla vera distribuzione della nostra popolazione.

Per esempio, diciamo che siamo una società di make-up e vogliamo decidere cosa produrre. Per semplicità, supponiamo che tutte le ragazze vogliano vedere finiture scintillanti, tutti i ragazzi vogliano vedere finiture opache, e tutti i nostri clienti froci vogliano vedere glitter. In questo caso, diciamo che sappiamo che il 40% dei nostri clienti si identifica come queer, il 10% come maschio e il 60% come femmina, ma questo non corrisponde alla proporzione di persone che hanno risposto al nostro sondaggio. Forse abbiamo avuto 50 ragazzi che hanno risposto, 200 persone queer che hanno risposto, e 10 ragazze che hanno risposto. Questo significa che i risultati del sondaggio non rifletterebbero ciò che la nostra base di clienti vuole veramente, cosa che potremmo correggere trasformando ogni serie di risposte nelle percentuali reali.

Come avvertimento, 10 ragazze non sono nulla per rappresentare il 60% della popolazione, perché nel mondo reale non risponderebbero tutte la stessa cosa. Quindi, se concludessimo che le ragazze vogliono lo shimmer e facessimo questo 60% dei nostri dati, ma ci sbagliassimo, avremmo un’emorragia di guadagni. Ricordate sempre che questo metodo si basa su un buon campionamento, oltre a conoscere la vera distribuzione dei dati che stiamo raccogliendo.

Imputazione deduttiva

  • Pro: Inferenza minima – Non introduce varianza o bias.
  • Contro: Codifica intensiva – Spesso non è possibile.
  • Gestisce: Tutti i tipi di dati mancanti!

Questo tipo di imputazione è forse il più ovvio e meno problematico, ma molti di noi se ne dimenticano quando vedono grandi quantità di dati mancanti. A volte, possiamo dedurre i valori mancanti dal resto delle informazioni, e mentre questo può richiedere un sacco di codifica per ogni singola serie di deduzioni, è una buona pratica.

Per esempio, se abbiamo informazioni sugli animali domestici e abbiamo le loro date di nascita ma mancano alcune età, possiamo facilmente riempirle.

Imputazione media/mediana/modalità

  • Pro: Facile.
  • Contro: Distorce l’istogramma – Sottovaluta la varianza.
  • Gestisce: MCAR e MAR voce non risposta.

Questo è il metodo più comune di imputazione dei dati, dove si sostituiscono tutti i valori mancanti con la media, la mediana o la modalità della colonna. Mentre questo è utile se siete di fretta perché è facile e veloce, cambia la natura statistica dei dati. Non solo questo distorce i nostri istogrammi, ma sottostima anche la varianza dei nostri dati perché stiamo rendendo numerosi valori esattamente uguali (quando in realtà evidentemente non lo sarebbero). Quindi, anche se questa pratica è molto comune, dovreste fare del vostro meglio per evitarla. Deformerà i vostri risultati, e non dovreste mai usarla se i vostri dati sono MNAR!

Hot-Deck Imputation

  • Pro: Utilizza i dati esistenti.
  • Contro: Le relazioni multivariabili sono distorte.
  • Gestisce: MCAR e MAR voce non risposta.

Questo metodo è un altro semplice, dove i valori mancanti sono sostituiti con valori casuali da quella colonna. Mentre questo ha il vantaggio di essere semplice, bisogna fare molta attenzione se si sta cercando di esaminare la natura delle caratteristiche e come si relazionano tra loro, poiché le relazioni multivariabili saranno distorte.

Imputazione basata sul modello (regressione, bayesiana, ecc.)

  • Pro: Miglioramento rispetto all’imputazione media/media/modale.
  • Contro: Distorce ancora gli istogrammi – Sottovaluta la varianza.
  • Gestisce: MCAR e MAR Item Non-Response

Questo metodo predice i valori mancanti come se fossero un obiettivo, e può usare diversi modelli, come la regressione o Naive Bayes. In alcuni casi, viene introdotta la casualità, che genera leggeri miglioramenti (cioè la Regressione Stocastica è migliore della Regressione).

Regressione stocastica multipla corretta

  • Pro: La varianza è accurata – È un metodo ben testato.
  • Contro: Richiede uno sforzo maggiore – Intenso dal punto di vista computazionale.
  • Gestisce: MCAR e MAR voce non risposta.

PMSR è molto più complesso degli altri metodi che abbiamo esaminato, ma può ancora essere implementato relativamente velocemente usando fancyimpute. Qui, approfittiamo del metodo di imputazione della Regressione Stocastica, ma lo facciamo “più” volte. Per ottenere questo, facciamo delle copie del nostro set di dati, comprese le celle vuote. Poi riempiamo ogni copia con le previsioni di un unico modello di Regressione Stocastica, e quindi è come inserire un piccolo istogramma in ogni cella vuota! E voilà: abbiamo mantenuto la nostra varianza accurata!

Approccio del sottomodello modello

  • Pro: Gestisce tutti i tipi di mancata risposta di un articolo! – Non sottovaluta la varianza.
  • Contro: Non ben testato – Richiede molto lavoro.
  • Gestisce: Tutti i tipi di Non-Risposta degli articoli (incluso MNAR)!

Questo metodo è la tecnica di imputazione più nuova, fantasiosa e adeguata disponibile. Consiste nel suddividere i dati in diversi modelli di missingness, e poi adattare un modello a ciascuno per prevedere i valori. Questo non fa assunzioni, è computazionalmente efficiente (anche se potrebbe essere laborioso) e può gestire i dati MNAR. Ecco un esempio di ciò che intendiamo per modelli di missingness:

Nota che il modello viola ha solo 1 riga, quindi potremmo volerlo raggruppare con altri piccoli modelli di missingness per evitare un overfitting.

admin

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg