I den verkliga världen är saknade data ett nästan oundvikligt problem. Endast ett fåtal speciella personer kan undvika det – vanligtvis genom stora investeringar i datainsamling. Denna fråga är avgörande eftersom det sätt på vilket vi hanterar saknade uppgifter har en direkt inverkan på våra resultat, och det plöjer också in i tidshanteringen. Därför bör det alltid vara en prioritet att hantera saknade uppgifter på rätt sätt, vilket kan vara mycket svårare än det verkar. Svårigheten uppstår när vi inser att alla saknade uppgifter inte är lika mycket värda bara för att de alla ser likadana ut – ett tomt utrymme – och att olika typer av saknade uppgifter måste hanteras på olika sätt. I den här artikeln går vi igenom typerna av saknade data samt grundläggande och avancerade metoder för att hantera dem.

Typer av saknade data

Enhetens uteblivna svar hänvisar till hela rader med saknade data. Ett exempel på detta kan vara personer som väljer att inte fylla i folkräkningen. Här ser vi inte nödvändigtvis Nans i våra data, men vi vet att det saknas värden eftersom vi vet hur den verkliga befolkningen i USA ser ut.

Imputeringsmetoder inkluderar: Viktklassjusteringar.

2.Item Non-Response

Item Non-Response är vad de flesta tänker på som saknade värden. Detta är när specifika celler i en kolumn saknas, och mängden saknade data kan ta vilken procentandel som helst av kolumnen (jag rekommenderar biblioteket missingno för att visualisera detta).

Imputeringsmetoder inkluderar (från det enklaste till det mest avancerade): Deductive Imputation, Mean/Median/Mode Imputation, Hot-Deck Imputation, Model-Based Imputation, Multiple Proper Stochastic Regression och Pattern Submodel Approach.

Väljandet av lämplig metod för dina data beror på vilken typ av icke-svar du står inför. Dessa är de möjliga kategorierna:

A.MCAR

MCAR står för Missing Completely at Random. Detta inträffar när saknade värden saknas oberoende av alla funktioner samt målet (inklusive sig självt). Detta innebär att det inte finns någon systematisk skillnad mellan de saknade och tillgängliga uppgifterna.

B. MAR

MAR står för Missing at Random. Detta inträffar när det saknade värdet är beroende av en variabel, men oberoende av sig självt. Om vi till exempel samlar in data om vattenkvalitet och det inträffar en dag då vår sensor går sönder, kommer de saknade värdena att bero på datumet. De är dock helt oberoende av sig själva (dvs. vi saknar pH-värde för att sensorn gick sönder en dag, och inte för att det fanns ett pH-värde som censorn inte kan läsa av). Här finns det fortfarande ingen systematisk skillnad mellan de data vi har eller inte har.

C.MNAR

MNAR står för Missing Not at Random. Detta är ett fall där ett värde saknas beroende av värdet i sig självt. Här är de tillgängliga uppgifterna och de saknade uppgifterna systematiskt olika. I undersökningar är det till exempel mindre sannolikt att personer med lägre inkomster svarar på frågor om hur mycket de tjänar, och därför saknas de lägre värdena eftersom de är låga.

Weight-Class Adjustments

  • Fördelar: Snabbt – Mycket användbart när datainsamlingen är obalanserad mellan olika klasser.
  • Nackdelar: Kräver förhandsinformation om fördelningen av data – Kräver vissa data för varje kategori i en datamängd – Mottaglig för outliers – Kan öka variansen i skattningarna.
  • Hanterar: Enhet som inte svarar.

Som namnet antyder tar den här metoden de data som är tillgängliga för oss och viktar om dem baserat på den verkliga fördelningen av vår population.

Säg till exempel att vi är ett sminkföretag och vill bestämma vad vi ska tillverka. För enkelhetens skull antar vi att alla flickor vill se skimrande finish, alla pojkar vill se matta finish och alla våra queer-kostymörer vill se glitter. Låt oss säga att vi vet att 40 % av våra kunder identifierar sig som queer, 10 % som män och 60 % som kvinnor, men att detta inte stämmer överens med andelen personer som svarade på vår enkät. Kanske hade vi 50 pojkar som svarade, 200 queerpersoner som svarade och 10 flickor som svarade. Detta innebär att resultaten av undersökningen inte skulle återspegla vad vår kundbas verkligen vill ha mest, vilket vi skulle kunna åtgärda genom att omvandla varje uppsättning svar till de verkliga procentsatserna.

Som en varning, 10 flickor är ingenting som representerar 60 % av befolkningen, eftersom de i den verkliga världen inte alla skulle svara samma sak. Om vi därför drog slutsatsen att flickor ville ha skimmer och gjorde detta till 60 % av våra data, men hade fel, skulle vi hemsöka våra intäkter. Kom alltid ihåg att den här metoden hänger på ett bra urval, samt att vi känner till den verkliga fördelningen av de data vi samlar in.

Deduktiv imputering

  • Fördelar: Minimala slutsatser – Inför inte varians eller bias.
  • Nackdelar: Kodningsintensivt – Ofta inte möjligt.
  • Hanterar: Alla typer av saknade uppgifter!

Denna typ av imputering är kanske den mest uppenbara och minst problematiska, men många av oss glömmer bort den när vi ser att stora delar av data saknas. Ibland kan vi härleda saknade värden från resten av informationen, och även om detta kan kräva en hel del kodning för varje enskild uppsättning av avdrag är det god praxis.

Till exempel, om vi har information om husdjur och vi har deras födelsedatum men saknar några åldrar, kan vi enkelt fylla i dessa.

Mean/Median/Mode Imputation

  • Fördelar: Lätt.
  • Nackdelar: Förvränger histogrammet – Underskattar variansen.
  • Hanterar: MCAR och MAR Icke-svar på objektet.

Detta är den vanligaste metoden för dataimputering, där man bara ersätter alla saknade värden med kolumnens medelvärde, median eller läge. Denna metod är användbar om du har bråttom eftersom den är enkel och snabb, men den ändrar dataens statistiska karaktär. Det gör inte bara att våra histogram blir skeva, utan det underskattar också variansen i våra data eftersom vi gör många värden exakt likadana (när de i verkligheten uppenbarligen inte skulle vara det). Därför bör du göra ditt bästa för att undvika denna metod, även om den är mycket vanlig. Den kommer att förvränga dina resultat, och du bör aldrig använda den om dina data är MNAR!

Hot-Deck Imputation

  • Fördelar: Använder befintliga uppgifter.
  • Nackdelar: Multivariabla samband förvrängs.
  • Hanterar: MCAR- och MAR-frågor som inte besvaras.

Denna metod är en annan enkel metod, där saknade värden ersätts med slumpmässiga värden från den kolumnen. Även om detta har fördelen att vara enkelt, var extra försiktig om du försöker undersöka egenskapernas karaktär och hur de förhåller sig till varandra, eftersom multivariabla relationer kommer att förvrängas.

Modellbaserad imputering (regression, bayesiansk, etc)

  • Fördelar: Fördelar: Förbättring jämfört med imputering av medelvärde/median/moder.
  • Nackdelar: Förvränger fortfarande histogrammen – Underskattar variansen.
  • Hanterar: MCAR och MAR Item Non-Response

Denna metod förutsäger saknade värden som om de vore ett mål, och kan använda olika modeller, som regression eller Naive Bayes. I vissa fall införs slumpmässighet, vilket genererar små förbättringar (dvs. stokastisk regression är bättre än regression).

Presterande multipel stokastisk regression

  • Fördelar: Variansen är korrekt – Det är en väl beprövad metod.
  • Nackdelar: Kräver mer ansträngning – Beräkningsintensiv.
  • Hanterar: MCAR och MAR Icke-svar på objektet.

PMSR är mycket mer komplex än de andra metoderna som vi har tittat på, men kan ändå implementeras relativt snabbt med hjälp av fancyimpute. Här drar vi nytta av imputeringsmetoden Stochastic Regression, men vi gör det ”flera” gånger. För att uppnå detta gör vi kopior av vår datamängd, inklusive de tomma cellerna. Vi fyller sedan varje kopia med förutsägelser från en unik stokastisk regressionsmodell, och därför är det som att lägga in ett litet histogram i varje tom cell! Och Voila: vi har hållit vår varians korrekt!

Mönsterundermodellsmetod

  • Fördelar: Hanterar alla typer av icke-svar på artiklar! – Den underskattar inte variansen.
  • Nackdelar: Ej väl testad – Arbetskrävande.
  • Hanterar: Alla typer av icke-svar (inklusive MNAR)!

Denna metod är den nyaste, mest avancerade och lämpligaste imputeringstekniken som finns tillgänglig. Den går ut på att dela upp data i olika mönster av missingness och sedan anpassa en modell till vart och ett av dem för att förutsäga värdena. Detta gör inga antaganden, det är beräkningseffektivt (även om det kan vara arbetsintensivt) och det kan hantera MNAR-data. Här är ett exempel på vad vi menar med missingness-mönster:

Bemärk att det lila mönstret bara har 1 rad, så vi kanske vill klumpa ihop det med andra små missingness-mönster för att undvika överanpassning.

admin

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg