Komplexní průvodce imputací dat

V reálném světě jsou chybějící data téměř nevyhnutelným problémem. Vyhnout se mu mohou jen výjimeční jedinci – obvykle díky velkým investicím do sběru dat. Tento problém je zásadní, protože způsob, jakým zacházíme s chybějícími údaji, má přímý dopad na naše zjištění a také se promítá do řízení času. Proto by mělo být vždy prioritou správně zacházet s chybějícími údaji, což může být mnohem těžší, než se zdá. Potíž nastává, když si uvědomíme, že ne všechny chybějící údaje jsou stejné jen proto, že všechny vypadají stejně – prázdné místo – a že s různými typy chybějících údajů je třeba zacházet odlišně. V tomto článku si rozebereme typy chybějících dat a základní i pokročilé metody jejich řešení.

Typy chybějících dat
2. Položka Non-Response
Úpravy váhových tříd
Deduktivní imputace
Medián/Median/Mode Imputace
Hot-Deck Imputace
Vlastní vícenásobná stochastická regrese
Přístup submodelu vzorů

Typy chybějících dat

Jednotka Non-Response se týká celých řádků chybějících dat. Příkladem mohou být lidé, kteří se rozhodli nevyplnit sčítání lidu. V tomto případě nemusíme nutně vidět Nany v našich datech, ale víme, že tam chybí hodnoty, protože víme, jak vypadá skutečná populace USA.

Mezi metody imputace patří např:

2. Položka Non-Response

Item Non-Response je to, co většina lidí považuje za chybějící hodnoty. To je případ, kdy chybí konkrétní buňky sloupce a množství chybějících dat může nabývat libovolného procenta sloupce (pro vizualizaci doporučuji knihovnu missingno).

Mezi metody imputace patří (od nejjednodušších po nejpokročilejší):

Metody imputace:

Výběr vhodné metody pro vaše data bude záviset na typu neodpovědi položky, se kterou se potýkáte. Toto jsou možné kategorie:

A.MCAR

MCAR znamená Missing Completely at Random (chybějící zcela náhodně). K tomu dochází, když chybějící hodnoty chybí nezávisle na všech prvcích i cíli (včetně sebe sama). To znamená, že neexistuje žádný systematický rozdíl mezi chybějícími a dostupnými údaji.

B. MAR

MAR je zkratka pro náhodně chybějící hodnoty. K tomu dochází, když je chybějící hodnota závislá na proměnné, ale nezávislá sama na sobě. Například pokud sbíráme údaje o kvalitě vody a máme den, kdy se nám porouchá senzor, pak budou chybějící hodnoty záviset na datu. Jsou však na sobě zcela nezávislé (tj. chybí nám pH, protože se na jeden den porouchal senzor, a ne proto, že bylo pH, které cenzor není schopen snímat). Zde stále neexistuje žádný systematický rozdíl mezi údaji, které máme nebo nemáme.

C.MNAR

MNAR znamená Missing Not at Random (chybí nikoli náhodně). Jedná se o případ, kdy chybějící hodnota závisí na hodnotě samotné. Zde se systematicky liší údaje, které jsou k dispozici, a chybějící údaje. Například v průzkumech je méně pravděpodobné, že lidé s nižšími příjmy budou odpovídat na otázky o tom, kolik vydělávají, a proto nižší hodnoty chybí, protože jsou nízké.

Úpravy váhových tříd

Klady: Rychlost – Velmi užitečné, pokud je sběr dat v jednotlivých třídách nevyvážený.
Nevýhody: Vyžaduje předchozí znalosti o rozdělení dat – Vyžaduje určitá data pro každou kategorii v souboru dat – Náchylný na odlehlé hodnoty – Může zvýšit rozptyl odhadů. Jednotka neodpovídá.

Jak název napovídá, tato metoda bere data, která máme k dispozici, a převáží je na základě skutečného rozdělení naší populace.

Příklad řekněme, že jsme kosmetická firma a chceme se rozhodnout, co budeme vyrábět. Pro zjednodušení předpokládejme, že všechny dívky chtějí vidět lesklé povrchy, všichni chlapci matné povrchy a všichni naši teplí kostyméři chtějí vidět třpytky. V tomto případě řekněme, že víme, že 40 % našich kostymérů se identifikuje jako queer, 10 % jako muži a 60 % jako ženy, ale to neodpovídá poměru lidí, kteří odpověděli na náš průzkum. Možná nám odpovědělo 50 chlapců, 200 queer lidí a 10 dívek. To znamená, že výsledky průzkumu by neodrážely to, co si naši zákazníci skutečně nejvíce přejí, což bychom mohli napravit tím, že bychom každou sadu odpovědí převedli na skutečná procenta.

Upozorňuji, že 10 dívek není nic, co by reprezentovalo 60 % populace, protože v reálném světě by všechny neodpověděly stejně. Pokud bychom tedy dospěli k závěru, že dívky chtějí třpytky, a udělali z toho 60 % našich dat, ale mýlili bychom se, krváceli bychom na výdělku. Vždy mějte na paměti, že tato metoda závisí na dobrém výběru vzorku a také na znalosti skutečného rozložení dat, která shromažďujeme.