V reálném světě jsou chybějící data téměř nevyhnutelným problémem. Vyhnout se mu mohou jen výjimeční jedinci – obvykle díky velkým investicím do sběru dat. Tento problém je zásadní, protože způsob, jakým zacházíme s chybějícími údaji, má přímý dopad na naše zjištění a také se promítá do řízení času. Proto by mělo být vždy prioritou správně zacházet s chybějícími údaji, což může být mnohem těžší, než se zdá. Potíž nastává, když si uvědomíme, že ne všechny chybějící údaje jsou stejné jen proto, že všechny vypadají stejně – prázdné místo – a že s různými typy chybějících údajů je třeba zacházet odlišně. V tomto článku si rozebereme typy chybějících dat a základní i pokročilé metody jejich řešení.

Typy chybějících dat

Jednotka Non-Response se týká celých řádků chybějících dat. Příkladem mohou být lidé, kteří se rozhodli nevyplnit sčítání lidu. V tomto případě nemusíme nutně vidět Nany v našich datech, ale víme, že tam chybí hodnoty, protože víme, jak vypadá skutečná populace USA.

Mezi metody imputace patří např:

2. Položka Non-Response

Item Non-Response je to, co většina lidí považuje za chybějící hodnoty. To je případ, kdy chybí konkrétní buňky sloupce a množství chybějících dat může nabývat libovolného procenta sloupce (pro vizualizaci doporučuji knihovnu missingno).

Mezi metody imputace patří (od nejjednodušších po nejpokročilejší):

Metody imputace:

Výběr vhodné metody pro vaše data bude záviset na typu neodpovědi položky, se kterou se potýkáte. Toto jsou možné kategorie:

A.MCAR

MCAR znamená Missing Completely at Random (chybějící zcela náhodně). K tomu dochází, když chybějící hodnoty chybí nezávisle na všech prvcích i cíli (včetně sebe sama). To znamená, že neexistuje žádný systematický rozdíl mezi chybějícími a dostupnými údaji.

B. MAR

MAR je zkratka pro náhodně chybějící hodnoty. K tomu dochází, když je chybějící hodnota závislá na proměnné, ale nezávislá sama na sobě. Například pokud sbíráme údaje o kvalitě vody a máme den, kdy se nám porouchá senzor, pak budou chybějící hodnoty záviset na datu. Jsou však na sobě zcela nezávislé (tj. chybí nám pH, protože se na jeden den porouchal senzor, a ne proto, že bylo pH, které cenzor není schopen snímat). Zde stále neexistuje žádný systematický rozdíl mezi údaji, které máme nebo nemáme.

C.MNAR

MNAR znamená Missing Not at Random (chybí nikoli náhodně). Jedná se o případ, kdy chybějící hodnota závisí na hodnotě samotné. Zde se systematicky liší údaje, které jsou k dispozici, a chybějící údaje. Například v průzkumech je méně pravděpodobné, že lidé s nižšími příjmy budou odpovídat na otázky o tom, kolik vydělávají, a proto nižší hodnoty chybí, protože jsou nízké.

Úpravy váhových tříd

  • Klady: Rychlost – Velmi užitečné, pokud je sběr dat v jednotlivých třídách nevyvážený.
  • Nevýhody: Vyžaduje předchozí znalosti o rozdělení dat – Vyžaduje určitá data pro každou kategorii v souboru dat – Náchylný na odlehlé hodnoty – Může zvýšit rozptyl odhadů. Jednotka neodpovídá.

Jak název napovídá, tato metoda bere data, která máme k dispozici, a převáží je na základě skutečného rozdělení naší populace.

Příklad řekněme, že jsme kosmetická firma a chceme se rozhodnout, co budeme vyrábět. Pro zjednodušení předpokládejme, že všechny dívky chtějí vidět lesklé povrchy, všichni chlapci matné povrchy a všichni naši teplí kostyméři chtějí vidět třpytky. V tomto případě řekněme, že víme, že 40 % našich kostymérů se identifikuje jako queer, 10 % jako muži a 60 % jako ženy, ale to neodpovídá poměru lidí, kteří odpověděli na náš průzkum. Možná nám odpovědělo 50 chlapců, 200 queer lidí a 10 dívek. To znamená, že výsledky průzkumu by neodrážely to, co si naši zákazníci skutečně nejvíce přejí, což bychom mohli napravit tím, že bychom každou sadu odpovědí převedli na skutečná procenta.

Upozorňuji, že 10 dívek není nic, co by reprezentovalo 60 % populace, protože v reálném světě by všechny neodpověděly stejně. Pokud bychom tedy dospěli k závěru, že dívky chtějí třpytky, a udělali z toho 60 % našich dat, ale mýlili bychom se, krváceli bychom na výdělku. Vždy mějte na paměti, že tato metoda závisí na dobrém výběru vzorku a také na znalosti skutečného rozložení dat, která shromažďujeme.

Deduktivní imputace

  • Klady: Minimální inference – nezavádí rozptyl ani zkreslení.
  • Nevýhody: Náročné na kódování – Často není možné.
  • Zvládá: Všechny typy chybějících údajů!

Tento typ imputace je asi nejzřejmější a nejméně problematický, ale mnozí z nás na něj zapomínají, když vidí chybět velké kusy dat. Někdy můžeme chybějící hodnoty odvodit ze zbytku informací, a i když to může zabrat hodně kódování pro každou jednotlivou sadu odpočtů, je to dobrá praxe.

Příklad pokud máme informace o domácích zvířatech a máme jejich data narození, ale chybí nám některé věky, můžeme je snadno doplnit.

Medián/Median/Mode Imputace

  • Klady: Snadné.
  • Nevýhody: Zkresluje histogram – Podhodnocuje rozptyl. MCAR a MAR Položka neodpovídá.

Jedná se o nejběžnější metodu imputace dat, kdy stačí nahradit všechny chybějící hodnoty průměrem, mediánem nebo modem sloupce. To je sice užitečné, pokud spěcháte, protože je to snadné a rychlé, ale mění to statistickou povahu dat. Nejenže to zkresluje naše histogramy, ale také to podhodnocuje rozptyl našich dat, protože četné hodnoty děláme úplně stejné (i když ve skutečnosti by zřejmě nebyly). Ačkoli je tedy tato praxe velmi častá, měli byste se jí snažit vyhnout. Zkresluje vaše výsledky a nikdy byste ji neměli používat, pokud jsou vaše data MNAR!“

Hot-Deck Imputace

  • Klady: Využívá existující data.
  • Nevýhody: Vztahy mezi více proměnnými jsou zkreslené.
  • Vypořádává se s tím: MCAR a MAR Položka neodpovídá.

Tato metoda je další jednoduchá metoda, kde jsou chybějící hodnoty nahrazeny náhodnými hodnotami z daného sloupce. Zlepšení oproti průměrné/mediánové/režimové imputaci.

  • Nevýhody: Stále zkresluje histogramy – Podhodnocuje rozptyl.
  • Zpracovává:
  • Tato metoda předpovídá chybějící hodnoty, jako by byly cílem, a může používat různé modely, například regresní nebo Naive Bayes. V některých případech se zavádí náhodnost, která generuje mírné zlepšení (tj. stochastická regrese je lepší než regrese).

    Vlastní vícenásobná stochastická regrese

    • Klady: Rozptyl je přesný – Je to dobře ověřená metoda.
    • Nevýhody: Vyžaduje větší úsilí – Je výpočetně náročná. MCAR a MAR Položka neodpovídá.

    PMSR je mnohem složitější než ostatní metody, na které jsme se podívali, ale přesto ji lze poměrně rychle implementovat pomocí fancyimpute. Zde využíváme výhod metody imputace stochastickou regresí, ale provádíme ji „vícekrát“. Abychom toho dosáhli, vytvoříme kopie našeho souboru dat včetně prázdných buněk. Každou kopii pak vyplníme předpověďmi z jedinečného modelu Stochastické regrese, a je to tedy jako vložit do každé prázdné buňky malý histogram! A Voila: zachovali jsme přesnost našeho rozptylu!“

    Přístup submodelu vzorů

    • Klady: Zvládá všechny typy položek bez odpovědi! – Nepodceňuje odchylky.
    • Nevýhody: Není dobře otestován – Pracně náročný.
    • Zvládá: Všechny typy Item Non-Response(včetně MNAR)!

    Tato metoda je nejnovější, nejfantastičtější a nejadekvátnější dostupnou technikou imputace. Spočívá v tom, že se data rozdělí na různé vzory chybějících hodnot a pak se na každý z nich napasuje model, aby se předpověděly hodnoty. Nevytváří žádné předpoklady, je výpočetně efektivní (i když může být pracná) a zvládá data MNAR. Zde je příklad toho, co myslíme vzory chybění:

    Všimněte si, že fialový vzor má pouze 1 řádek, takže bychom ho mohli chtít shlukovat s jinými malými vzory chybění, abychom se vyhnuli nadměrnému fitování.

    .

    admin

    Napsat komentář

    Vaše e-mailová adresa nebude zveřejněna.

    lg