A Comprehensive Guide To Data Imputation

In de echte wereld zijn ontbrekende gegevens een bijna onvermijdelijk probleem. Slechts weinigen kunnen het omzeilen – meestal door grote investeringen in gegevensverzameling. Deze kwestie is van cruciaal belang omdat de manier waarop we met ontbrekende gegevens omgaan een directe invloed heeft op onze bevindingen, en bovendien doorwerkt in het tijdbeheer. Daarom moet het altijd een prioriteit zijn om goed om te gaan met ontbrekende gegevens, wat veel moeilijker kan zijn dan het lijkt. De moeilijkheid ontstaat wanneer we ons realiseren dat niet alle ontbrekende gegevens gelijk zijn, alleen omdat ze er allemaal hetzelfde uitzien – een lege ruimte – en dat verschillende soorten ontbrekende gegevens verschillend moeten worden behandeld. In dit artikel bespreken we de soorten ontbrekende gegevens, evenals basis- en geavanceerde methoden om ze aan te pakken.

Typen ontbrekende gegevens
2.Item Non-Response
Weight-Class Adjustments
Deductive Imputation
Mean/Median/Mode Imputatie
Hot-Deck Imputation
Modelgebaseerde Imputatie (Regressie, Bayesiaans, enz.)
Proper Meervoudige Stochastische Regressie
Patroon Submodel Benadering

Typen ontbrekende gegevens

Unit Non-Response verwijst naar hele rijen ontbrekende gegevens. Een voorbeeld hiervan kunnen mensen zijn die ervoor kiezen de volkstelling niet in te vullen. Hier zien we niet noodzakelijkerwijs Nans in onze gegevens, maar we weten dat er waarden ontbreken omdat we weten hoe de echte bevolking van de VS eruit ziet.

Imputatiemethoden omvatten: Weight-Class Adjustments.

2.Item Non-Response

Item Non-Response is waar de meeste mensen aan denken als ontbrekende waarden. Dit is wanneer specifieke cellen van een kolom ontbreken, en de hoeveelheid ontbrekende gegevens kan elk percentage van de kolom innemen (ik raad de bibliotheek missingno aan om dit te visualiseren).

Imputatiemethoden omvatten (van eenvoudigste tot meest geavanceerde): Deductive Imputation, Mean/Median/Mode Imputation, Hot-Deck Imputation, Model-Based Imputation, Multiple Proper Stochastic Regression, and the Pattern Submodel Approach.

Het kiezen van de juiste methode voor je gegevens hangt af van het type item non-respons waar je mee te maken hebt. Dit zijn de mogelijke categorieën:

A.MCAR

MCAR staat voor Missing Completely at Random. Dit gebeurt wanneer ontbrekende waarden onafhankelijk van alle kenmerken en van het doel (inclusief zichzelf) ontbreken. Dit betekent dat er geen systematisch verschil is tussen de ontbrekende en de beschikbare gegevens.

B. MAR

MAR staat voor Missing at Random. Dit gebeurt wanneer de ontbrekende waarde afhankelijk is van een variabele, maar onafhankelijk is van zichzelf. Bijvoorbeeld, als wij gegevens over de waterkwaliteit verzamelen en er is een dag waarop onze sensor stuk gaat, dan zullen de ontbrekende waarden van de datum afhangen. Ze zijn echter volledig onafhankelijk van zichzelf (d.w.z. we missen pH omdat de sensor een dag kapot was, en niet omdat er een pH was die de censor niet kan aflezen). Hier is er nog steeds geen systematisch verschil tussen de gegevens die we wel of niet hebben.

C.MNAR

MNAR staat voor Missing Not at Random. Dit is het geval wanneer de missingness van een waarde afhankelijk is van de waarde zelf. In dit geval verschillen de gegevens die beschikbaar zijn en de ontbrekende gegevens systematisch. Bij enquêtes is het bijvoorbeeld minder waarschijnlijk dat mensen met lagere inkomens vragen beantwoorden over hoeveel ze verdienen, en daarom ontbreken de lagere waarden omdat ze laag zijn.

Weight-Class Adjustments

Voors: Snel – Zeer nuttig wanneer de gegevensverzameling onevenwichtig over de klassen is verdeeld.
Nadelen: Vereist voorkennis over de verdeling van de gegevens – Vereist enkele gegevens voor elke categorie in een dataset – Gevoelig voor uitschieters – Kan de variantie van de schattingen vergroten.
Behandelt: Unit Non-Response.

Zoals de naam al zegt, neemt deze methode de gegevens waarover we beschikken en weegt ze opnieuw op basis van de werkelijke verdeling van onze populatie.

Bij wijze van voorbeeld, stel dat we een make-upbedrijf zijn en willen beslissen wat we gaan produceren. Laten we voor het gemak aannemen dat alle meisjes glinsterende afwerkingen willen zien, alle jongens matte afwerkingen willen zien, en al onze queer costumers glitter willen zien. Laten we in dit geval zeggen dat we weten dat 40% van onze klanten zich als homo identificeert, 10% als man en 60% als vrouw, maar dat dit niet overeenkomt met de verhouding van mensen die onze enquête hebben beantwoord. Misschien hebben 50 jongens geantwoord, 200 queer mensen en 10 meisjes. Dit betekent dat de bevindingen van de enquête niet zouden weerspiegelen wat onze klantenkring werkelijk wil, wat we zouden kunnen oplossen door elke reeks antwoorden om te zetten in de echte percentages.

Als waarschuwing, 10 meisjes is niets om 60% van de bevolking te vertegenwoordigen, want in de echte wereld zouden ze niet allemaal hetzelfde antwoorden. Daarom, als wij concludeerden dat de meisjes glans wilden en dit 60% van onze gegevens maakten, maar het verkeerd hadden, zouden wij onze verdiensten hemorriseren. Onthoud altijd dat deze methode staat of valt met een goede steekproeftrekking en met het kennen van de werkelijke verdeling van de gegevens die we verzamelen.