În lumea reală, datele lipsă sunt o problemă aproape inevitabilă. Doar câțiva speciali o pot evita -de obicei prin investiții mari în colectarea datelor. Această problemă este crucială, deoarece modul în care tratăm datele lipsă are un impact direct asupra constatărilor noastre și, de asemenea, se răsfrânge asupra gestionării timpului. Prin urmare, ar trebui să fie întotdeauna o prioritate să tratăm corect datele lipsă, ceea ce poate fi mult mai greu decât pare. Dificultatea apare pe măsură ce ne dăm seama că nu toate datele lipsă sunt create în mod egal doar pentru că toate arată la fel – un spațiu gol – și că diferitele tipuri de date lipsă trebuie tratate în mod diferit. În acest articol, trecem în revistă tipurile de date lipsă, precum și metodele de bază și avansate pentru a le aborda.

Tipuri de date lipsă

Nu răspuns unitar se referă la rânduri întregi de date lipsă. Un exemplu în acest sens ar putea fi persoanele care aleg să nu completeze recensământul. Aici, nu vedem neapărat Nans în datele noastre, dar știm că există valori lipsă deoarece știm cum arată populația reală a SUA.

Metodele de imputare includ: Ajustarea clasei ponderale.

2.Item non-răspuns

Item non-răspuns este ceea ce cei mai mulți oameni consideră a fi valori lipsă. Aceasta este atunci când anumite celule specifice ale unei coloane lipsesc, iar cantitatea de date lipsă poate lua orice procent din coloană (recomand biblioteca missingno pentru a vizualiza acest lucru).

Metodele de imputare includ (de la cel mai simplu la cel mai avansat): Deductive Imputation, Mean/Median/Mode Imputation, Hot-Deck Imputation, Model-Based Imputation, Multiple Proper Stochastic Regression și Pattern Submodel Approach.

Alegerea metodei adecvate pentru datele dumneavoastră va depinde de tipul de non-răspuns la item cu care vă confruntați. Acestea sunt categoriile posibile:

A.MCAR

MCAR înseamnă Missing Completely at Random. Acest lucru se întâmplă atunci când valorile lipsă lipsesc în mod independent din toate caracteristicile, precum și din țintă (inclusiv ea însăși). Aceasta înseamnă că nu există o diferență sistematică între datele lipsă și cele disponibile.

B. MAR

MAR semnifică Missing at Random (lipsă la întâmplare). Aceasta apare atunci când valoarea lipsă este dependentă de o variabilă, dar independentă de ea însăși. De exemplu, dacă colectăm date privind calitatea apei și avem o zi în care senzorul nostru se strică, atunci valorile lipsă vor depinde de dată. Cu toate acestea, ele sunt complet independente de ele însele (de exemplu, ne lipsește pH-ul pentru că senzorul s-a stricat pentru o zi, și nu pentru că a existat un pH pe care cenzorul nu este capabil să îl citească). Aici, încă nu există o diferență sistematică între datele pe care le avem sau nu le avem.

C.MNAR

MNAR înseamnă Missing Not at Random. Acesta este cazul în care lipsa unei valori este dependentă de valoarea în sine. Aici, datele care sunt disponibile și datele lipsă sunt sistematic diferite. De exemplu, în sondaje, este mai puțin probabil ca persoanele cu venituri mai mici să răspundă la întrebări despre cât câștigă și, prin urmare, valorile mai mici lipsesc pentru că sunt mici.

Ajustări ale claselor de ponderare

  • Pro: Rapid – Foarte util atunci când colectarea datelor este dezechilibrată între clase.
  • Contra: Necesită cunoștințe prealabile despre distribuția datelor – Necesită unele date pentru fiecare categorie dintr-un set de date – Susceptibil la valori aberante – Poate crește varianța estimărilor.
  • Manipulează: Unit Non-Response.

După cum sugerează și numele, această metodă ia datele pe care le avem la dispoziție și le reevaluează pe baza adevăratei distribuții a populației noastre.

De exemplu, să spunem că suntem o companie de machiaj și vrem să decidem ce să producem. Pentru simplitate, să presupunem că toate fetele vor să vadă finisaje strălucitoare, toți băieții vor să vadă finisaje mate, iar toți costumierii noștri homosexuali vor să vadă sclipici. În acest caz, să presupunem că știm că 40% dintre clienții noștri se identifică ca fiind homosexuali, 10% ca bărbați și 60% ca femei, dar acest lucru nu corespunde proporției de persoane care au răspuns la sondajul nostru. Poate că au răspuns 50 de băieți, 200 de persoane homosexuale și 10 fete. Acest lucru înseamnă că rezultatele sondajului nu ar reflecta ceea ce își dorește cu adevărat cel mai mult baza noastră de clienți, lucru pe care l-am putea remedia prin transformarea fiecărui set de răspunsuri în procente reale.

Ca avertisment, 10 fete nu reprezintă nimic pentru a reprezenta 60% din populație, deoarece în lumea reală nu ar răspunde toate la același lucru. Prin urmare, dacă am ajunge la concluzia că fetele doresc strălucire și am face ca acest lucru să reprezinte 60% din datele noastre, dar ne-am înșela, am avea o hemoragie a câștigurilor noastre. Amintiți-vă întotdeauna că această metodă se bazează pe o bună eșantionare, precum și pe cunoașterea adevăratei distribuții a datelor pe care le colectăm.

Imputare deductivă

  • Pro: Inferență minimă – Nu introduce varianță sau părtinire.
  • Contra: Codificare intensivă – Adesea nu este posibil.
  • Manipulează: Toate tipurile de date lipsă!

Acest tip de imputare este poate cel mai evident și cel mai puțin problematic, dar mulți dintre noi uită de el atunci când vedem că lipsesc bucăți mari de date. Uneori, putem deduce valorile lipsă din restul informațiilor și, deși acest lucru poate necesita multă codificare pentru fiecare set individual de deducții, este o bună practică.

De exemplu, dacă avem informații despre animalele de companie și avem datele de naștere ale acestora, dar ne lipsesc unele vârste, le putem completa cu ușurință.

Imputare medie/mediană/modală

  • Pro: Ușor.
  • Contra: Denaturează histograma – Subestimează varianța.
  • Manipulează: MCAR și MAR Item non-răspuns.

Aceasta este cea mai comună metodă de imputare a datelor, în care pur și simplu înlocuiți toate valorile lipsă cu media, mediana sau modul coloanei. Deși această metodă este utilă dacă vă grăbiți, deoarece este ușoară și rapidă, ea schimbă natura statistică a datelor. Nu numai că ne denaturează histogramele, dar subestimează și variația datelor noastre, deoarece facem ca numeroase valori să fie exact aceleași (când, în realitate, este evident că nu ar fi așa). Prin urmare, deși această practică este foarte frecventă, ar trebui să faceți tot posibilul să o evitați. Vă va deforma rezultatele și nu ar trebui să o folosiți niciodată dacă datele dvs. sunt MNAR!

Hot-Deck Imputation

  • Pro: Utilizează datele existente.
  • Contra: Relațiile multivariabile sunt distorsionate.
  • Manipulează: MCAR și MAR Item non-răspuns.

Această metodă este o altă metodă simplă, în care valorile lipsă sunt înlocuite cu valori aleatorii din coloana respectivă. În timp ce aceasta are avantajul de a fi simplă, fiți foarte atenți dacă încercați să examinați natura caracteristicilor și modul în care acestea relaționează între ele, deoarece relațiile multivariabile vor fi distorsionate.

Imputarea bazată pe model (regresie, Bayesiană, etc)

  • Pro: Îmbunătățire față de Imputarea medie/mediană/modală.
  • Contra: Denaturează încă histogramele – Subestimează varianța.
  • Manipulează: MCAR și MAR Item Non-Response

Această metodă prezice valorile lipsă ca și cum ar fi o țintă și poate utiliza diferite modele, cum ar fi Regresia sau Naive Bayes. În unele cazuri, se introduce caracterul aleatoriu, ceea ce generează ușoare îmbunătățiri (de exemplu, Regresia stocastică este mai bună decât Regresia).

Proper Multiple Stochastic Regression

  • Pro: Varianța este precisă – Este o metodă bine testată.
  • Contra: Necesită mai mult efort – Este intensivă din punct de vedere computațional.
  • Manipulează: MCAR și MAR Item non-răspuns.

PMSR este mult mai complexă decât celelalte metode pe care le-am analizat, dar poate fi totuși implementată relativ rapid folosind fancyimpute. Aici, profităm de metoda de imputare Stochastic Regression, dar o facem de „mai multe” ori. Pentru a realiza acest lucru, facem copii ale setului nostru de date, inclusiv ale celulelor goale. Apoi, completăm fiecare copie cu predicțiile unui model unic de regresie stocastică și, prin urmare, este ca și cum am insera o mică histogramă în fiecare celulă goală! Și iată: am păstrat acuratețea varianței noastre!

Abordarea submodelului de model

  • Pro: Gestionează toate tipurile de non-răspunsuri la articole! – Nu subestimează variația.
  • Contra: Nu este bine testat – Necesită multă muncă.
  • Gestionează: Toate tipurile de Item Non-Response (inclusiv MNAR)!

Această metodă este cea mai nouă, mai fantezistă și mai adecvată tehnică de imputare disponibilă. Aceasta constă în împărțirea datelor în diferite modele de lipsă a datelor și apoi adaptarea unui model la fiecare dintre acestea pentru a prezice valorile. Aceasta nu face nicio presupunere, este eficientă din punct de vedere computațional (deși ar putea necesita multă muncă) și poate gestiona date MNAR. Iată un exemplu a ceea ce înțelegem prin modele de lipsă:

Rețineți că modelul violet are doar 1 rând, astfel încât am putea dori să îl grupăm cu alte modele de lipsă mici pentru a evita supraajustarea.

admin

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg