I den virkelige verden er manglende data et næsten uundgåeligt problem. Kun nogle få kan undgå det – sædvanligvis gennem store investeringer i dataindsamling. Dette problem er afgørende, fordi den måde, vi håndterer manglende data på, har en direkte indvirkning på vores resultater, og det pløjer også ind i tidsstyringen. Derfor bør det altid være en prioritet at håndtere manglende data korrekt, hvilket kan være meget sværere, end det ser ud til at være. Vanskeligheden opstår, når vi indser, at ikke alle manglende data er ligeværdige, bare fordi de alle ser ens ud – et tomt felt – og at forskellige typer manglende data skal håndteres forskelligt. I denne artikel gennemgår vi typerne af manglende data samt grundlæggende og avancerede metoder til at håndtere dem.

Typer af manglende data

Unit Non-Response refererer til hele rækker med manglende data. Et eksempel herpå kunne være personer, der vælger ikke at udfylde folketællingen. Her ser vi ikke nødvendigvis Nans i vores data, men vi ved, at der mangler værdier, fordi vi ved, hvordan den reelle befolkning i USA ser ud.

Imputeringsmetoderne omfatter: Vægtklassejusteringer.

2.Item Non-Response

Item Non-Response er det, som de fleste mennesker tænker på som manglende værdier. Dette er, når specifikke celler i en kolonne mangler, og mængden af manglende data kan tage en hvilken som helst procentdel af kolonnen (jeg anbefaler biblioteket missingno til at visualisere dette).

Imputeringsmetoder omfatter (fra det enkleste til det mest avancerede): Deductive Imputation, Mean/Median/Mode Imputation, Hot-Deck Imputation, Model-Based Imputation, Multiple Proper Stochastic Regression og Pattern Submodel Approach.

Valg af den passende metode til dine data vil afhænge af den type af item non-response du står over for. Disse er de mulige kategorier:

A.MCAR

MCAR står for Missing Completely at Random (mangler fuldstændigt tilfældigt). Dette sker, når manglende værdier mangler uafhængigt af alle funktioner samt målet (herunder sig selv). Det betyder, at der ikke er nogen systematisk forskel mellem de manglende og de tilgængelige data.

B. MAR

MAR står for Missing at Random. Dette forekommer, når den manglende værdi er afhængig af en variabel, men uafhængig af sig selv. Hvis vi f.eks. indsamler data om vandkvalitet, og vi har en dag, hvor vores sensor går i stykker, vil de manglende værdier afhænge af datoen. De er dog helt uafhængige af sig selv (dvs. vi mangler pH-værdien, fordi sensoren gik i stykker i en dag, og ikke fordi der var en pH-værdi, som censorerne ikke er i stand til at læse). Her er der stadig ingen systematisk forskel på de data, vi har eller ikke har.

C.MNAR

MNAR står for Missing Not at Random. Dette er det tilfælde, hvor manglen på en værdi er afhængig af selve værdien. Her er de data, der er tilgængelige, og de manglende data systematisk forskellige. I undersøgelser er det f.eks. mindre sandsynligt, at personer med lavere indkomster svarer på spørgsmål om, hvor meget de tjener, og derfor mangler de lavere værdier, fordi de er lave.

Vægtklassejusteringer

  • Fordele: Hurtig – Meget nyttig, når dataindsamlingen er ubalanceret på tværs af klasser.
  • Ulemper: Kræver forudgående viden om fordelingen af dataene – Kræver nogle data for hver kategori i et datasæt – Modtagelig for outliers – Kan øge variansen af estimater.
  • Håndterer: Enhed Ikke-svar.

Som navnet antyder, tager denne metode de data, der er tilgængelige for os, og vægter dem på ny på baggrund af den sande fordeling af vores population.

Sig f.eks. at vi er et makeupfirma og ønsker at beslutte, hvad vi skal fremstille. Lad os for enkelhedens skyld antage, at alle pigerne ønsker at se skinnende finish, alle drengene ønsker at se mat finish, og alle vores queer-kostumer ønsker at se glitter. Lad os i dette tilfælde sige, at vi ved, at 40 % af vores kunder identificerer sig som queer, 10 % som mænd og 60 % som kvinder, men at dette ikke stemmer overens med andelen af personer, der har besvaret vores undersøgelse. Måske fik vi 50 drenge til at svare, 200 queer-folk til at svare og 10 piger til at svare. Det betyder, at resultaterne af undersøgelsen ikke ville afspejle, hvad vores kundebase virkelig ønsker mest, hvilket vi kunne rette op på ved at omdanne hvert sæt svar til de reelle procentdele.

Som advarsel er 10 piger ikke noget, der repræsenterer 60 % af befolkningen, for i den virkelige verden ville de ikke alle svare det samme. Derfor, hvis vi konkluderede, at pigerne ønskede shimmer og gjorde dette 60% af vores data, men tog fejl, ville vi bløde vores indtjening. Husk altid, at denne metode afhænger af en god stikprøveudtagning, samt at vi kender den sande fordeling af de data, vi indsamler.

Deduktiv imputering

  • Fordele: Minimal inferens – Indfører ikke varians eller skævhed.
  • Ulemper: Kodningskrævende – Ofte ikke muligt.
  • Håndterer: Alle typer af manglende data!

Denne type imputering er måske den mest indlysende og mindst problematiske, men mange af os glemmer den, når vi ser store dele af data, der mangler. Nogle gange kan vi udlede manglende værdier fra resten af oplysningerne, og selv om det kan kræve en masse kodning for hvert enkelt sæt udledninger, er det god praksis.

Hvis vi f.eks. har oplysninger om kæledyr, og vi har deres fødselsdatoer, men mangler nogle aldre, kan vi nemt udfylde disse.

Middelværdi/Median/Mode-imputering

  • Fordele: Let.
  • Ulemper: Forvrænger histogrammet – Undervurderer variansen.
  • Håndterer: MCAR og MAR Item Non-Response.

Dette er den mest almindelige metode til dataimputering, hvor man blot erstatter alle de manglende værdier med kolonnens middelværdi, median eller mode. Selv om dette er nyttigt, hvis du har travlt, fordi det er nemt og hurtigt, ændrer det dataenes statistiske karakter. Ikke alene skævvrider det vores histogrammer, men det undervurderer også variansen i vores data, fordi vi gør mange værdier nøjagtigt ens (når de i virkeligheden tydeligvis ikke ville være det). Selv om denne praksis er meget almindelig, bør du derfor gøre dit bedste for at undgå den. Den vil forvrænge dine resultater, og du bør aldrig bruge den, hvis dine data er MNAR!

Hot-Deck Imputation

  • Fordele: Bruger eksisterende data.
  • Ulemper: Multivariable sammenhænge forvrænges.
  • Håndterer: MCAR og MAR Item Non-Response.

Denne metode er en anden simpel metode, hvor manglende værdier erstattes med tilfældige værdier fra den pågældende kolonne. Selv om denne metode har den fordel, at den er enkel, skal du være ekstra forsigtig, hvis du forsøger at undersøge karakteren af funktionerne, og hvordan de hænger sammen, da multivariable relationer vil blive forvrænget.

Modelbaseret imputering (regression, bayesiansk osv.)

  • Fordele: Forbedring i forhold til Mean/Median/Mode Imputation.
  • Ulemper: Forvrænger stadig histogrammer – Undervurderer varians.
  • Håndterer: MCAR og MAR Item Non-Response

Denne metode forudsiger manglende værdier, som om de var et mål, og kan bruge forskellige modeller, som f.eks. regression eller Naive Bayes. I nogle tilfælde introduceres tilfældighed, hvilket genererer små forbedringer (dvs. stokastisk regression er bedre end regression).

Påfaldende multipel stokastisk regression

  • Fordele: Variansen er nøjagtig – Det er en velafprøvet metode.
  • Ulemper: Kræver mere indsats – Beregningskrævende.
  • Håndterer: MCAR og MAR Item Non-Response.

PMSR er langt mere kompleks end de andre metoder, vi har set på, men kan stadig implementeres relativt hurtigt ved hjælp af fancyimpute. Her udnytter vi den stokastiske regressionsimputeringsmetode, men vi gør det “flere” gange. For at opnå dette laver vi kopier af vores datasæt, herunder de tomme celler. Derefter udfylder vi hver kopi med forudsigelser fra en unik Stochastic Regression-model, og derfor er det som at indsætte et lille histogram i hver tom celle! Og Voila: vi har holdt vores varians nøjagtig!

Mønsterundermodel-tilgang

  • Fordele: Håndterer alle typer af Item Non-Response! – Den undervurderer ikke variansen.
  • Ulemper: Ikke velafprøvet – Arbejdskrævende.
  • Håndterer: Alle typer af Item Non-Response (herunder MNAR)!

Denne metode er den nyeste, flotteste og mest hensigtsmæssige imputeringsteknik, der findes. Den består i at opdele dataene i forskellige missingness-mønstre og derefter tilpasse en model til hver enkelt for at forudsige værdierne. Dette gør ingen antagelser, det er beregningseffektivt (selv om det kan være arbejdskrævende), og det kan håndtere MNAR-data. Her er et eksempel på, hvad vi mener med missingness-mønstre:

Bemærk, at det lilla mønster kun har 1 række, så vi ønsker måske at klumpe det sammen med andre små missingness-mønstre for at undgå overfitting.

admin

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg