A Comprehensive Guide To Data Imputation

A való világban a hiányzó adatok szinte elkerülhetetlen probléma. Csak néhány különleges ember tudja kikerülni – általában az adatgyűjtésbe történő nagy beruházások révén. Ez a kérdés kulcsfontosságú, mert a hiányzó adatok kezelésének módja közvetlen hatással van a megállapításainkra, és az időgazdálkodásba is beleszánt. Ezért mindig prioritásként kell kezelni a hiányzó adatokat, ami sokkal nehezebb lehet, mint amilyennek látszik. A nehézség akkor merül fel, amikor rájövünk, hogy nem minden hiányzó adat egyenlő, csak azért, mert mind ugyanúgy néz ki – egy üres hely -, és hogy a különböző típusú hiányzó adatokat másképp kell kezelni. Ebben a cikkben áttekintjük a hiányzó adatok típusait, valamint a kezelésükre szolgáló alapvető és fejlett módszereket.

A hiányzó adatok típusai
2.Item Non-Response
Súlyosztály-kiigazítások
Deduktív imputáció
Átlag/közepes/közepes/mód imputáció
Hot-Deck Imputation
Modellalapú imputáció (regresszió, Bayes, stb.)
Proper Multiple Stochastic Regression
Mintás almodell-megközelítés

A hiányzó adatok típusai

A hiányzó adatok hiánya egész sorok hiányzó adataira utal. Erre példa lehetnek azok az emberek, akik úgy döntenek, hogy nem töltik ki a népszámlálást. Itt nem feltétlenül látunk Nanokat az adatainkban, de tudjuk, hogy vannak hiányzó értékek, mert tudjuk, hogyan néz ki az USA valós lakossága.

Az imputációs módszerek közé tartoznak:

2.Item Non-Response

Az Item Non-Response az, amire a legtöbben úgy gondolnak, mint hiányzó értékekre. Ez az, amikor egy oszlop bizonyos cellái hiányoznak, és a hiányzó adatok mennyisége az oszlop tetszőleges százalékát veheti fel (ennek vizualizálásához a missingno könyvtárat ajánlom).

Az imputációs módszerek közé tartoznak (a legegyszerűbbtől a legfejlettebbig):

A megfelelő módszer kiválasztása az Ön adataihoz attól függ, hogy milyen típusú elemmel nem válaszol, amellyel szembesül. Ezek a lehetséges kategóriák:

A.MCAR

MCAR a Missing Completely at Random (teljesen véletlenszerűen hiányzó) kifejezést jelenti. Ez akkor fordul elő, amikor a hiányzó értékek függetlenül hiányoznak az összes jellemzőből, valamint a célpontból (beleértve önmagát is). Ez azt jelenti, hogy nincs szisztematikus különbség a hiányzó és a rendelkezésre álló adatok között.

B. MAR

A MAR a Missing at Random (véletlenszerűen hiányzó) kifejezés rövidítése. Ez akkor fordul elő, amikor a hiányzó érték egy változótól függ, de önmagától független. Például, ha vízminőségi adatokat gyűjtünk, és van egy nap, amikor az érzékelőnk elromlik, akkor a hiányzó értékek a dátumtól függnek. Önmaguktól azonban teljesen függetlenek (azaz azért hiányzik a pH-érték, mert az érzékelő egy napra elromlott, és nem azért, mert volt olyan pH-érték, amelyet a cenzor képtelen leolvasni). Itt még mindig nincs szisztematikus különbség a rendelkezésünkre álló és a nem rendelkezésünkre álló adatok között.

C.MNAR

MNAR a Missing Not at Random rövidítése. Ez az az eset, amikor egy érték hiányzása magától az értéktől függ. Itt a rendelkezésre álló adatok és a hiányzó adatok szisztematikusan különböznek egymástól. Például a felmérésekben az alacsonyabb jövedelmű emberek kisebb valószínűséggel válaszolnak az arra vonatkozó kérdésekre, hogy mennyit keresnek, és ezért az alacsonyabb értékek azért hiányoznak, mert alacsonyak.

Súlyosztály-kiigazítások

Előnyök: Minimális következtetés – Nem vezet be varianciát vagy torzítást.
Hátrányok: Kódolásigényes – Gyakran nem lehetséges.
Kezeli: Minden típusú hiányzó adatot!

Ez a fajta imputáció talán a legnyilvánvalóbb és legkevésbé problémás, de sokan megfeledkezünk róla, amikor nagy mennyiségű hiányzó adatot látunk. Néha a hiányzó értékeket le tudjuk vezetni a többi információból, és bár ez sok kódolást igényelhet minden egyes levezetésnél, jó gyakorlat.

Például, ha háziállatokról van információnk, és megvan a születési dátumuk, de hiányzik néhány életkor, ezeket könnyen ki tudjuk tölteni.

Átlag/közepes/közepes/mód imputáció

Előnyök: Egyszerű.
Hátrányok: Torzítja a hisztogramot – Alulbecsüli a szórást.
Kezeli: MCAR és MAR tételek nem válaszolnak.

Ez a legelterjedtebb adatimputációs módszer, ahol az összes hiányzó értéket egyszerűen az oszlop átlagával, mediánjával vagy móduszával helyettesítjük. Bár ez hasznos, ha siet, mert egyszerű és gyors, megváltoztatja az adatok statisztikai jellegét. Ez nem csak a hisztogramjainkat ferdíti el, hanem az adataink varianciáját is alábecsüli, mivel számos értéket pontosan ugyanolyanná teszünk (miközben a valóságban nyilvánvalóan nem lennének azok). Ezért, bár ez a gyakorlat nagyon gyakori, mindent meg kell tennünk, hogy elkerüljük. Elferdíti az eredményeinket, és soha ne használjuk, ha az adataink MNAR!”

Hot-Deck Imputation

Előnyök: Meglévő adatokat használ.
Hátrányok: A többváltozós összefüggések torzulnak.
Kezeli: MCAR és MAR Item Non-Response.

Ez egy másik egyszerű módszer, ahol a hiányzó értékeket az adott oszlop véletlenszerű értékeivel helyettesítjük. Bár ennek előnye, hogy egyszerű, különösen óvatosnak kell lennie, ha a jellemzők jellegét és egymáshoz való viszonyát próbálja vizsgálni, mivel a többváltozós kapcsolatok torzulni fognak.

Modellalapú imputáció (regresszió, Bayes, stb.)

Előnyök: Javulás az átlag/középérték/mód imputáláshoz képest.
Hátrányok: Még mindig torzítja a hisztogramokat – Alulbecsüli a varianciát.
Kezeli a következőket: MCAR és MAR Item Non-Response

Ez a módszer úgy jósolja meg a hiányzó értékeket, mintha azok célértékek lennének, és különböző modelleket használhat, mint például Regression vagy Naive Bayes. Bizonyos esetekben véletlenszerűséget vezetnek be, ami enyhe javulást eredményez (pl. a sztochasztikus regresszió jobb, mint a regresszió).

Proper Multiple Stochastic Regression

Előnyök: A variancia pontos – Ez egy jól bevált módszer.
Hátrányok: Több erőfeszítést igényel – Számításigényes.
Kezeli: MCAR és MAR tételek nem válaszolnak.

A PMSR sokkal összetettebb, mint a többi általunk vizsgált módszer, de még mindig viszonylag gyorsan megvalósítható a fancyimpute segítségével. Itt a sztochasztikus regressziós imputációs módszert használjuk ki, de azt “többszörösen” végezzük el. Ennek érdekében másolatokat készítünk az adathalmazunkról, beleértve az üres cellákat is. Ezután minden egyes másolatot feltöltünk egy egyedi Stochastic Regression modellből származó előrejelzésekkel, tehát olyan, mintha minden üres cellába egy kis hisztogramot illesztenénk be! És Voilá: a varianciánkat pontosan megtartottuk!

Mintás almodell-megközelítés

Előnyök: Kezeli az összes típusú Item Non-Response-t! – Nem becsüli alá az eltérést.
Hátrányok: Nem jól tesztelt – Munkaigényes.
Kezeli a következőket: Minden típusú Item Non-Response (beleértve az MNAR-t is)!

Ez a módszer a legújabb, legdivatosabb és legmegfelelőbb imputációs technika. Ez abból áll, hogy az adatokat különböző hiányzási mintázatokra bontjuk, majd mindegyikhez illesztünk egy modellt az értékek előrejelzése érdekében. Ez nem tesz feltevéseket, számítási szempontból hatékony (bár munkaigényes lehet), és képes kezelni az MNAR-adatokat. Íme egy példa arra, hogy mit értünk missingness-minták alatt:

Megjegyezzük, hogy a lila mintának csak 1 sora van, ezért a túlillesztés elkerülése érdekében érdemes más kis missingness-mintákkal összevonni.

Wzrost