W realnym świecie, brakujące dane są niemal nieuniknionym problemem. Tylko nieliczni mogą go uniknąć – zazwyczaj poprzez duże inwestycje w gromadzenie danych. Ta kwestia jest kluczowa, ponieważ sposób, w jaki radzimy sobie z brakującymi danymi ma bezpośredni wpływ na nasze wyniki, a także wpływa na zarządzanie czasem. Dlatego zawsze priorytetem powinno być właściwe postępowanie z brakującymi danymi, co może być znacznie trudniejsze, niż się wydaje. Trudność pojawia się, gdy uświadomimy sobie, że nie wszystkie brakujące dane są sobie równe tylko dlatego, że wszystkie wyglądają tak samo – puste miejsce – i że różne rodzaje brakujących danych muszą być traktowane inaczej. W tym artykule przeglądamy typy brakujących danych, jak również podstawowe i zaawansowane metody radzenia sobie z nimi.

Typy brakujących danych

Nieodpowiedź jednostki odnosi się do całych rzędów brakujących danych. Przykładem tego mogą być ludzie, którzy zdecydowali się nie wypełniać spisu powszechnego. W tym przypadku niekoniecznie widzimy Nans w naszych danych, ale wiemy, że brakuje wartości, ponieważ wiemy, jak wygląda prawdziwa populacja USA.

Metody imputacji obejmują: Weight-Class Adjustments.

2.Item Non-Response

Item Non-Response jest tym, o czym większość ludzi myśli jako o brakujących wartościach. Jest to sytuacja, gdy brakuje konkretnych komórek w kolumnie, a ilość brakujących danych może zająć dowolny procent kolumny (polecam bibliotekę missingno, aby to zwizualizować).

Metody imputacji obejmują (od najprostszych do najbardziej zaawansowanych): Imputacja dedukcyjna, Imputacja średniej/mediany/modelu, Imputacja gorącego dołu, Imputacja oparta na modelu, Wielokrotna właściwa regresja stochastyczna i Podejście wzorcowe.

Wybór odpowiedniej metody dla Twoich danych będzie zależał od rodzaju braku odpowiedzi na pytania, z którym masz do czynienia. Są to możliwe kategorie:

A.MCAR

MCAR oznacza Brak Całkowicie Losowy. To zdarza się, gdy brakujące wartości są brakujące niezależnie od wszystkich cech, jak również od celu (w tym samego w sobie). Oznacza to, że nie ma systematycznej różnicy między brakującymi i dostępnymi danymi.

B. MAR

MAR to skrót od Missing at Random. Występuje, gdy brakująca wartość jest zależna od zmiennej, ale niezależna od niej samej. Na przykład, jeśli zbieramy dane o jakości wody i mamy dzień, w którym nasz czujnik się zepsuje, wtedy brakujące wartości będą zależały od daty. Jednak są one całkowicie niezależne od siebie (tzn. brakuje nam pH, ponieważ czujnik zepsuł się na jeden dzień, a nie dlatego, że było pH, którego cenzor nie jest w stanie odczytać). Tutaj nadal nie ma systematycznej różnicy między danymi, które mamy lub których nie mamy.

C.MNAR

MNAR oznacza Missing Not at Random. Jest to przypadek, w którym brak wartości jest zależny od samej wartości. W tym przypadku dane, które są dostępne i brakujące dane są systematycznie różne. Na przykład, w ankietach, osoby o niższych dochodach rzadziej odpowiadają na pytania o to, ile zarabiają i dlatego brakuje niższych wartości, ponieważ są one niskie.

Weight-Class Adjustments

  • Plusy: Szybkość – Bardzo przydatne, gdy zbieranie danych jest niezrównoważone pomiędzy klasami.
  • Wady: Wymaga wcześniejszej wiedzy o rozkładzie danych – Wymaga pewnych danych dla każdej kategorii w zbiorze danych – Podatna na wartości odstające – Może zwiększać wariancję oszacowań.
  • Obsługuje: Unit Non-Response.

Jak sama nazwa wskazuje, ta metoda bierze dane, które są dla nas dostępne i ponownie waży je w oparciu o prawdziwy rozkład naszej populacji.

Na przykład, powiedzmy, że jesteśmy firmą zajmującą się makijażem i chcemy zdecydować, co produkować. Dla uproszczenia, załóżmy, że wszystkie dziewczyny chcą zobaczyć błyszczące wykończenia, wszyscy chłopcy chcą zobaczyć matowe wykończenia, a wszystkie nasze queer costumers chcą zobaczyć brokat. W tym przypadku załóżmy, że wiemy, że 40% naszych klientek identyfikuje się jako queer, 10% jako mężczyzna i 60% jako kobieta, ale nie odpowiada to proporcjom osób, które odpowiedziały na naszą ankietę. Być może odpowiedziało 50 chłopców, 200 odmieńców i 10 dziewczyn. Oznacza to, że wyniki ankiety nie odzwierciedlałyby tego, czego naprawdę pragnie nasza baza klientów, co moglibyśmy naprawić poprzez przekształcenie każdego zestawu odpowiedzi w rzeczywiste wartości procentowe.

Jako ostrzeżenie, 10 dziewcząt nie jest niczym, co reprezentowałoby 60% populacji, ponieważ w prawdziwym świecie nie wszystkie odpowiedziałyby na to samo. Dlatego też, jeśli doszliśmy do wniosku, że dziewczyny chciały shimmer i uczynił to 60% naszych danych, ale były w błędzie, bylibyśmy hemorrhaging nasze zarobki. Zawsze pamiętaj, że ta metoda opiera się na dobrym próbkowaniu, jak również na znajomości prawdziwego rozkładu danych, które zbieramy.

Dedukcyjna imputacja

  • Plusy: Minimalne wnioskowanie – Nie wprowadza wariancji ani stronniczości.
  • Wady: Intensywne kodowanie – Często nie jest możliwe.
  • Obsługuje: Wszystkie rodzaje brakujących danych!

Ten typ imputacji jest być może najbardziej oczywisty i najmniej problematyczny, ale wielu z nas zapomina o nim, gdy widzimy duże kawałki brakujących danych. Czasami możemy wywnioskować brakujące wartości z reszty informacji, i chociaż może to zająć dużo kodowania dla każdego indywidualnego zestawu dedukcji, jest to dobra praktyka.

Na przykład, jeśli mamy informacje o zwierzętach domowych i mamy ich daty urodzenia, ale brakuje nam wieku, możemy łatwo wypełnić te dane.

Mean/Median/Mode Imputacja

  • Plusy: Łatwe.
  • Wady: Zniekształca histogram – Nie doszacowuje wariancji.
  • Obsługuje: MCAR i MAR Brak odpowiedzi na pozycję.

Jest to najbardziej powszechna metoda imputacji danych, gdzie po prostu zastępujesz wszystkie brakujące wartości średnią, medianą lub trybem kolumny. Chociaż jest to przydatne, jeśli się spieszysz, ponieważ jest to łatwe i szybkie, zmienia to statystyczną naturę danych. Nie tylko przekrzywia to nasze histogramy, ale również zaniża wariancję naszych danych, ponieważ sprawiamy, że wiele wartości jest dokładnie takich samych (podczas gdy w rzeczywistości ewidentnie nie byłyby takie). Dlatego, chociaż ta praktyka jest bardzo powszechna, powinieneś zrobić wszystko, aby jej uniknąć. Spaczą one twoje wyniki i nigdy nie powinieneś ich używać, jeśli twoje dane są MNAR!

Hot-Deck Imputation

  • Zalety: Wykorzystuje istniejące dane.
  • Wady: Zależności wielozmiennowe są zniekształcone.
  • Obsługuje: MCAR i MAR Brak odpowiedzi na pozycję.

Ta metoda jest kolejną prostą, gdzie brakujące wartości są zastępowane losowymi wartościami z tej kolumny. Chociaż ma to zaletę bycia prostym, zachowaj szczególną ostrożność, jeśli próbujesz zbadać naturę cech i jak odnoszą się one do siebie nawzajem, ponieważ wielozmienne relacje zostaną zniekształcone.

Model-Based Imputation (Regression, Bayesian, etc)

  • Plusy: Ulepszenie w stosunku do imputacji średniej/mediany/mody.
  • Wady: Nadal zniekształca histogramy – Niedoszacowanie wariancji.
  • Obsługuje: MCAR i MAR Item Non-Response

Ta metoda przewiduje brakujące wartości tak, jakby były celem, i może używać różnych modeli, takich jak Regression lub Naive Bayes. W niektórych przypadkach wprowadza się losowość, która generuje niewielkie ulepszenia (tj. Regresja stochastyczna jest lepsza niż Regresja).

Prawidłowa wielokrotna regresja stochastyczna

  • Pros: Wariancja jest dokładna – Jest to dobrze przetestowana metoda.
  • Wady: Wymaga więcej wysiłku – Obliczeniowo intensywna.
  • Obsługuje: MCAR i MAR Item Non-Response.

PMSR jest znacznie bardziej złożony niż inne metody, którym się przyjrzeliśmy, ale nadal może być zaimplementowany stosunkowo szybko przy użyciu fancyimpute. Tutaj wykorzystujemy metodę imputacji Regresji Stochastycznej, ale robimy to „wiele” razy. Aby to osiągnąć, tworzymy kopie naszego zbioru danych, włączając w to puste komórki. Następnie wypełniamy każdą kopię przewidywaniami z unikalnego modelu regresji stochastycznej, a więc jest to jak wstawienie małego histogramu do każdej pustej komórki! I Voila: zachowaliśmy dokładność naszej wariancji!

Pattern Submodel Approach

  • Plusy: Obsługuje wszystkie typy braku odpowiedzi! – Nie lekceważy wariancji.
  • Wady: Nie jest dobrze przetestowana – Pracochłonna.
  • Obsługuje: Wszystkie typy Item Non-Response(w tym MNAR)!

Ta metoda jest najnowszą, najbardziej fantazyjną i najbardziej odpowiednią dostępną techniką imputacji. Polega ona na rozbiciu danych na różne wzorce braku odpowiedzi, a następnie dopasowaniu modelu do każdego z nich w celu przewidzenia wartości. Nie czyni to żadnych założeń, jest wydajne obliczeniowo (choć może być pracochłonne) i może obsługiwać dane MNAR. Oto przykład tego, co rozumiemy przez wzorce brakujące:

Zauważ, że fioletowy wzorzec ma tylko 1 wiersz, więc możemy chcieć połączyć go z innymi małymi wzorcami brakującymi, aby uniknąć przepełnienia.

admin

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg