In de echte wereld zijn ontbrekende gegevens een bijna onvermijdelijk probleem. Slechts weinigen kunnen het omzeilen – meestal door grote investeringen in gegevensverzameling. Deze kwestie is van cruciaal belang omdat de manier waarop we met ontbrekende gegevens omgaan een directe invloed heeft op onze bevindingen, en bovendien doorwerkt in het tijdbeheer. Daarom moet het altijd een prioriteit zijn om goed om te gaan met ontbrekende gegevens, wat veel moeilijker kan zijn dan het lijkt. De moeilijkheid ontstaat wanneer we ons realiseren dat niet alle ontbrekende gegevens gelijk zijn, alleen omdat ze er allemaal hetzelfde uitzien – een lege ruimte – en dat verschillende soorten ontbrekende gegevens verschillend moeten worden behandeld. In dit artikel bespreken we de soorten ontbrekende gegevens, evenals basis- en geavanceerde methoden om ze aan te pakken.

Typen ontbrekende gegevens

Unit Non-Response verwijst naar hele rijen ontbrekende gegevens. Een voorbeeld hiervan kunnen mensen zijn die ervoor kiezen de volkstelling niet in te vullen. Hier zien we niet noodzakelijkerwijs Nans in onze gegevens, maar we weten dat er waarden ontbreken omdat we weten hoe de echte bevolking van de VS eruit ziet.

Imputatiemethoden omvatten: Weight-Class Adjustments.

2.Item Non-Response

Item Non-Response is waar de meeste mensen aan denken als ontbrekende waarden. Dit is wanneer specifieke cellen van een kolom ontbreken, en de hoeveelheid ontbrekende gegevens kan elk percentage van de kolom innemen (ik raad de bibliotheek missingno aan om dit te visualiseren).

Imputatiemethoden omvatten (van eenvoudigste tot meest geavanceerde): Deductive Imputation, Mean/Median/Mode Imputation, Hot-Deck Imputation, Model-Based Imputation, Multiple Proper Stochastic Regression, and the Pattern Submodel Approach.

Het kiezen van de juiste methode voor je gegevens hangt af van het type item non-respons waar je mee te maken hebt. Dit zijn de mogelijke categorieën:

A.MCAR

MCAR staat voor Missing Completely at Random. Dit gebeurt wanneer ontbrekende waarden onafhankelijk van alle kenmerken en van het doel (inclusief zichzelf) ontbreken. Dit betekent dat er geen systematisch verschil is tussen de ontbrekende en de beschikbare gegevens.

B. MAR

MAR staat voor Missing at Random. Dit gebeurt wanneer de ontbrekende waarde afhankelijk is van een variabele, maar onafhankelijk is van zichzelf. Bijvoorbeeld, als wij gegevens over de waterkwaliteit verzamelen en er is een dag waarop onze sensor stuk gaat, dan zullen de ontbrekende waarden van de datum afhangen. Ze zijn echter volledig onafhankelijk van zichzelf (d.w.z. we missen pH omdat de sensor een dag kapot was, en niet omdat er een pH was die de censor niet kan aflezen). Hier is er nog steeds geen systematisch verschil tussen de gegevens die we wel of niet hebben.

C.MNAR

MNAR staat voor Missing Not at Random. Dit is het geval wanneer de missingness van een waarde afhankelijk is van de waarde zelf. In dit geval verschillen de gegevens die beschikbaar zijn en de ontbrekende gegevens systematisch. Bij enquêtes is het bijvoorbeeld minder waarschijnlijk dat mensen met lagere inkomens vragen beantwoorden over hoeveel ze verdienen, en daarom ontbreken de lagere waarden omdat ze laag zijn.

Weight-Class Adjustments

  • Voors: Snel – Zeer nuttig wanneer de gegevensverzameling onevenwichtig over de klassen is verdeeld.
  • Nadelen: Vereist voorkennis over de verdeling van de gegevens – Vereist enkele gegevens voor elke categorie in een dataset – Gevoelig voor uitschieters – Kan de variantie van de schattingen vergroten.
  • Behandelt: Unit Non-Response.

Zoals de naam al zegt, neemt deze methode de gegevens waarover we beschikken en weegt ze opnieuw op basis van de werkelijke verdeling van onze populatie.

Bij wijze van voorbeeld, stel dat we een make-upbedrijf zijn en willen beslissen wat we gaan produceren. Laten we voor het gemak aannemen dat alle meisjes glinsterende afwerkingen willen zien, alle jongens matte afwerkingen willen zien, en al onze queer costumers glitter willen zien. Laten we in dit geval zeggen dat we weten dat 40% van onze klanten zich als homo identificeert, 10% als man en 60% als vrouw, maar dat dit niet overeenkomt met de verhouding van mensen die onze enquête hebben beantwoord. Misschien hebben 50 jongens geantwoord, 200 queer mensen en 10 meisjes. Dit betekent dat de bevindingen van de enquête niet zouden weerspiegelen wat onze klantenkring werkelijk wil, wat we zouden kunnen oplossen door elke reeks antwoorden om te zetten in de echte percentages.

Als waarschuwing, 10 meisjes is niets om 60% van de bevolking te vertegenwoordigen, want in de echte wereld zouden ze niet allemaal hetzelfde antwoorden. Daarom, als wij concludeerden dat de meisjes glans wilden en dit 60% van onze gegevens maakten, maar het verkeerd hadden, zouden wij onze verdiensten hemorriseren. Onthoud altijd dat deze methode staat of valt met een goede steekproeftrekking en met het kennen van de werkelijke verdeling van de gegevens die we verzamelen.

Deductive Imputation

  • Voors: Minimale gevolgtrekking – Brengt geen variantie of bias aan.
  • Nadelen: Intensieve codering – Vaak niet mogelijk.
  • Verwerkt: Alle soorten ontbrekende gegevens!

Dit type imputatie is misschien het meest voor de hand liggend en het minst problematisch, maar velen van ons vergeten het wanneer er grote stukken gegevens ontbreken. Soms kunnen we ontbrekende waarden afleiden uit de rest van de informatie, en hoewel dit veel codering kan vergen voor elke afzonderlijke reeks aftrekkingen, is het een goede praktijk.

Bijvoorbeeld, als we informatie hebben over huisdieren en we hebben hun geboortedata, maar missen enkele leeftijden, kunnen we deze gemakkelijk invullen.

Mean/Median/Mode Imputatie

  • Voors: Gemakkelijk.
  • Nadelen: Vervormt het histogram – Onderschat de variantie.
  • Behandelt: MCAR en MAR Item Non-Response.

Dit is de meest gebruikelijke methode van imputatie, waarbij alle ontbrekende waarden worden vervangen door het gemiddelde, de mediaan of de modus van de kolom. Hoewel dit nuttig is als je haast hebt, omdat het gemakkelijk en snel is, verandert het de statistische aard van de gegevens. Dit trekt niet alleen onze histogrammen scheef, maar onderschat ook de variantie in onze gegevens omdat we vele waarden exact gelijk maken (terwijl ze dat in werkelijkheid duidelijk niet zijn). Daarom moet u, hoewel deze praktijk zeer gebruikelijk is, uw best doen om ze te vermijden. Uw resultaten zullen erdoor worden vertekend en u mag er nooit gebruik van maken als uw gegevens MNAR zijn!

Hot-Deck Imputation

  • Voordeel: Maakt gebruik van bestaande gegevens.
  • Nadelen: Multivariabele relaties worden vervormd.
  • Behandelt: MCAR en MAR Item Non-Respons.

Ook dit is een eenvoudige methode, waarbij ontbrekende waarden worden vervangen door willekeurige waarden uit die kolom. Hoewel dit het voordeel heeft eenvoudig te zijn, moet u extra voorzichtig zijn als u probeert de aard van de kenmerken te onderzoeken en hoe zij zich tot elkaar verhouden, aangezien multivariabele relaties zullen worden vervormd.

Modelgebaseerde Imputatie (Regressie, Bayesiaans, enz.)

  • Voordeel: Verbetering ten opzichte van gemiddelde/mediane/mode imputatie.
  • Nadelen: vertekent histogrammen nog steeds – Onderschat variantie.
  • Behandelt: MCAR en MAR Item Non-Respons

Deze methode voorspelt ontbrekende waarden alsof ze een doel zijn, en kan verschillende modellen gebruiken, zoals Regressie of Naive Bayes. In sommige gevallen wordt willekeurigheid geïntroduceerd, wat lichte verbeteringen oplevert (d.w.z. Stochastische Regressie is beter dan Regressie).

Proper Meervoudige Stochastische Regressie

  • Voors: De variantie is nauwkeurig – Het is een goed geteste methode.
  • Nadelen: Vereist meer inspanning – Computationeel intensief.
  • Behandelt: MCAR en MAR Item Non-Response.

PMSR is veel complexer dan de andere methoden die we hebben bekeken, maar kan nog steeds relatief snel worden geïmplementeerd met fancyimpute. Hier maken we gebruik van de Stochastische Regressie imputatie methode, maar we doen het “meerdere” keren. Om dit te bereiken, maken we kopieën van onze dataset, inclusief de lege cellen. Vervolgens vullen we elke kopie met voorspellingen van een uniek Stochastisch Regressiemodel, en het is dus net alsof we een klein histogram in elke lege cel invoegen! En voilà: we hebben onze variantie nauwkeurig gehouden!

Patroon Submodel Benadering

  • Voordeel: Verwerkt alle soorten item-non-respons! – Onderschat de variantie niet.
  • Nadelen: Niet goed getest – Arbeidsintensief.
  • Behandelt: Alle soorten Item Non-Response (inclusief MNAR)!

Deze methode is de nieuwste, deftigste en de meest adequate imputatietechniek die beschikbaar is. Zij bestaat erin de gegevens op te splitsen in verschillende missingness-patronen, en dan aan elk daarvan een model aan te passen om de waarden te voorspellen. Hierbij worden geen veronderstellingen gemaakt, het is rekenkundig efficiënt (hoewel het arbeidsintensief kan zijn) en het kan MNAR-gegevens verwerken. Hier is een voorbeeld van wat we bedoelen met missingness patronen:

Merk op dat het paarse patroon slechts 1 rij heeft, zodat we het misschien willen clumpen met andere kleine missingness patronen om overfitting te vermijden.

admin

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg