A való világban a hiányzó adatok szinte elkerülhetetlen probléma. Csak néhány különleges ember tudja kikerülni – általában az adatgyűjtésbe történő nagy beruházások révén. Ez a kérdés kulcsfontosságú, mert a hiányzó adatok kezelésének módja közvetlen hatással van a megállapításainkra, és az időgazdálkodásba is beleszánt. Ezért mindig prioritásként kell kezelni a hiányzó adatokat, ami sokkal nehezebb lehet, mint amilyennek látszik. A nehézség akkor merül fel, amikor rájövünk, hogy nem minden hiányzó adat egyenlő, csak azért, mert mind ugyanúgy néz ki – egy üres hely -, és hogy a különböző típusú hiányzó adatokat másképp kell kezelni. Ebben a cikkben áttekintjük a hiányzó adatok típusait, valamint a kezelésükre szolgáló alapvető és fejlett módszereket.

A hiányzó adatok típusai

A hiányzó adatok hiánya egész sorok hiányzó adataira utal. Erre példa lehetnek azok az emberek, akik úgy döntenek, hogy nem töltik ki a népszámlálást. Itt nem feltétlenül látunk Nanokat az adatainkban, de tudjuk, hogy vannak hiányzó értékek, mert tudjuk, hogyan néz ki az USA valós lakossága.

Az imputációs módszerek közé tartoznak:

2.Item Non-Response

Az Item Non-Response az, amire a legtöbben úgy gondolnak, mint hiányzó értékekre. Ez az, amikor egy oszlop bizonyos cellái hiányoznak, és a hiányzó adatok mennyisége az oszlop tetszőleges százalékát veheti fel (ennek vizualizálásához a missingno könyvtárat ajánlom).

Az imputációs módszerek közé tartoznak (a legegyszerűbbtől a legfejlettebbig):

A megfelelő módszer kiválasztása az Ön adataihoz attól függ, hogy milyen típusú elemmel nem válaszol, amellyel szembesül. Ezek a lehetséges kategóriák:

A.MCAR

MCAR a Missing Completely at Random (teljesen véletlenszerűen hiányzó) kifejezést jelenti. Ez akkor fordul elő, amikor a hiányzó értékek függetlenül hiányoznak az összes jellemzőből, valamint a célpontból (beleértve önmagát is). Ez azt jelenti, hogy nincs szisztematikus különbség a hiányzó és a rendelkezésre álló adatok között.

B. MAR

A MAR a Missing at Random (véletlenszerűen hiányzó) kifejezés rövidítése. Ez akkor fordul elő, amikor a hiányzó érték egy változótól függ, de önmagától független. Például, ha vízminőségi adatokat gyűjtünk, és van egy nap, amikor az érzékelőnk elromlik, akkor a hiányzó értékek a dátumtól függnek. Önmaguktól azonban teljesen függetlenek (azaz azért hiányzik a pH-érték, mert az érzékelő egy napra elromlott, és nem azért, mert volt olyan pH-érték, amelyet a cenzor képtelen leolvasni). Itt még mindig nincs szisztematikus különbség a rendelkezésünkre álló és a nem rendelkezésünkre álló adatok között.

C.MNAR

MNAR a Missing Not at Random rövidítése. Ez az az eset, amikor egy érték hiányzása magától az értéktől függ. Itt a rendelkezésre álló adatok és a hiányzó adatok szisztematikusan különböznek egymástól. Például a felmérésekben az alacsonyabb jövedelmű emberek kisebb valószínűséggel válaszolnak az arra vonatkozó kérdésekre, hogy mennyit keresnek, és ezért az alacsonyabb értékek azért hiányoznak, mert alacsonyak.

Súlyosztály-kiigazítások

  • Előnyök: Gyors – Nagyon hasznos, ha az adatgyűjtés nem kiegyensúlyozott az osztályok között.
  • Hátrányok: Előzetes ismereteket igényel az adatok eloszlásáról – Az adathalmaz minden kategóriájához szükséges néhány adat – Érzékeny a kiugró értékekre – Növelheti a becslések szórását.
  • Kezelések: Unit Non-Response.

Amint a neve is mutatja, ez a módszer a rendelkezésünkre álló adatokat veszi, és a sokaságunk valódi eloszlása alapján újrasúlyozza azokat.

Tegyük fel például, hogy egy sminkgyártó cég vagyunk, és el akarjuk dönteni, hogy mit gyártsunk. Az egyszerűség kedvéért tegyük fel, hogy az összes lány csillámos, az összes fiú matt, az összes buzi kosztümösünk pedig csillogást szeretne látni. Ebben az esetben tegyük fel, hogy tudjuk, hogy a vásárlóink 40%-a queer, 10%-a férfi és 60%-a nő, de ez nem egyezik a felmérésünkre válaszolók arányával. Lehet, hogy 50 fiú válaszolt, 200 queer ember válaszolt, és 10 lány válaszolt. Ez azt jelenti, hogy a felmérés eredményei nem tükröznék azt, hogy a vásárlóink valójában mire vágynak leginkább, amit úgy tudnánk kijavítani, ha az egyes válaszcsoportokat a valós százalékos arányokra alakítanánk át.

A figyelmeztetés kedvéért: 10 lány semmi ahhoz, hogy a lakosság 60%-át képviselje, mert a való világban nem mindannyian ugyanazt válaszolnák. Ezért, ha arra a következtetésre jutnánk, hogy a lányok csillogást akarnak, és ezt az adataink 60%-ára tennénk, de tévednénk, akkor elvéreznénk a bevételünket. Ne feledjük mindig, hogy ez a módszer a jó mintavételezésen múlik, valamint azon, hogy ismerjük az általunk gyűjtött adatok valódi eloszlását.

Deduktív imputáció

  • Előnyök: Minimális következtetés – Nem vezet be varianciát vagy torzítást.
  • Hátrányok: Kódolásigényes – Gyakran nem lehetséges.
  • Kezeli: Minden típusú hiányzó adatot!

Ez a fajta imputáció talán a legnyilvánvalóbb és legkevésbé problémás, de sokan megfeledkezünk róla, amikor nagy mennyiségű hiányzó adatot látunk. Néha a hiányzó értékeket le tudjuk vezetni a többi információból, és bár ez sok kódolást igényelhet minden egyes levezetésnél, jó gyakorlat.

Például, ha háziállatokról van információnk, és megvan a születési dátumuk, de hiányzik néhány életkor, ezeket könnyen ki tudjuk tölteni.

Átlag/közepes/közepes/mód imputáció

  • Előnyök: Egyszerű.
  • Hátrányok: Torzítja a hisztogramot – Alulbecsüli a szórást.
  • Kezeli: MCAR és MAR tételek nem válaszolnak.

Ez a legelterjedtebb adatimputációs módszer, ahol az összes hiányzó értéket egyszerűen az oszlop átlagával, mediánjával vagy móduszával helyettesítjük. Bár ez hasznos, ha siet, mert egyszerű és gyors, megváltoztatja az adatok statisztikai jellegét. Ez nem csak a hisztogramjainkat ferdíti el, hanem az adataink varianciáját is alábecsüli, mivel számos értéket pontosan ugyanolyanná teszünk (miközben a valóságban nyilvánvalóan nem lennének azok). Ezért, bár ez a gyakorlat nagyon gyakori, mindent meg kell tennünk, hogy elkerüljük. Elferdíti az eredményeinket, és soha ne használjuk, ha az adataink MNAR!”

Hot-Deck Imputation

  • Előnyök: Meglévő adatokat használ.
  • Hátrányok: A többváltozós összefüggések torzulnak.
  • Kezeli: MCAR és MAR Item Non-Response.

Ez egy másik egyszerű módszer, ahol a hiányzó értékeket az adott oszlop véletlenszerű értékeivel helyettesítjük. Bár ennek előnye, hogy egyszerű, különösen óvatosnak kell lennie, ha a jellemzők jellegét és egymáshoz való viszonyát próbálja vizsgálni, mivel a többváltozós kapcsolatok torzulni fognak.

Modellalapú imputáció (regresszió, Bayes, stb.)

  • Előnyök: Javulás az átlag/középérték/mód imputáláshoz képest.
  • Hátrányok: Még mindig torzítja a hisztogramokat – Alulbecsüli a varianciát.
  • Kezeli a következőket: MCAR és MAR Item Non-Response

Ez a módszer úgy jósolja meg a hiányzó értékeket, mintha azok célértékek lennének, és különböző modelleket használhat, mint például Regression vagy Naive Bayes. Bizonyos esetekben véletlenszerűséget vezetnek be, ami enyhe javulást eredményez (pl. a sztochasztikus regresszió jobb, mint a regresszió).

Proper Multiple Stochastic Regression

  • Előnyök: A variancia pontos – Ez egy jól bevált módszer.
  • Hátrányok: Több erőfeszítést igényel – Számításigényes.
  • Kezeli: MCAR és MAR tételek nem válaszolnak.

A PMSR sokkal összetettebb, mint a többi általunk vizsgált módszer, de még mindig viszonylag gyorsan megvalósítható a fancyimpute segítségével. Itt a sztochasztikus regressziós imputációs módszert használjuk ki, de azt “többszörösen” végezzük el. Ennek érdekében másolatokat készítünk az adathalmazunkról, beleértve az üres cellákat is. Ezután minden egyes másolatot feltöltünk egy egyedi Stochastic Regression modellből származó előrejelzésekkel, tehát olyan, mintha minden üres cellába egy kis hisztogramot illesztenénk be! És Voilá: a varianciánkat pontosan megtartottuk!

Mintás almodell-megközelítés

  • Előnyök: Kezeli az összes típusú Item Non-Response-t! – Nem becsüli alá az eltérést.
  • Hátrányok: Nem jól tesztelt – Munkaigényes.
  • Kezeli a következőket: Minden típusú Item Non-Response (beleértve az MNAR-t is)!

Ez a módszer a legújabb, legdivatosabb és legmegfelelőbb imputációs technika. Ez abból áll, hogy az adatokat különböző hiányzási mintázatokra bontjuk, majd mindegyikhez illesztünk egy modellt az értékek előrejelzése érdekében. Ez nem tesz feltevéseket, számítási szempontból hatékony (bár munkaigényes lehet), és képes kezelni az MNAR-adatokat. Íme egy példa arra, hogy mit értünk missingness-minták alatt:

Megjegyezzük, hogy a lila mintának csak 1 sora van, ezért a túlillesztés elkerülése érdekében érdemes más kis missingness-mintákkal összevonni.

admin

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.

lg