W realnym świecie, brakujące dane są niemal nieuniknionym problemem. Tylko nieliczni mogą go uniknąć – zazwyczaj poprzez duże inwestycje w gromadzenie danych. Ta kwestia jest kluczowa, ponieważ sposób, w jaki radzimy sobie z brakującymi danymi ma bezpośredni wpływ na nasze wyniki, a także wpływa na zarządzanie czasem. Dlatego zawsze priorytetem powinno być właściwe postępowanie z brakującymi danymi, co może być znacznie trudniejsze, niż się wydaje. Trudność pojawia się, gdy uświadomimy sobie, że nie wszystkie brakujące dane są sobie równe tylko dlatego, że wszystkie wyglądają tak samo – puste miejsce – i że różne rodzaje brakujących danych muszą być traktowane inaczej. W tym artykule przeglądamy typy brakujących danych, jak również podstawowe i zaawansowane metody radzenia sobie z nimi.
Typy brakujących danych
Nieodpowiedź jednostki odnosi się do całych rzędów brakujących danych. Przykładem tego mogą być ludzie, którzy zdecydowali się nie wypełniać spisu powszechnego. W tym przypadku niekoniecznie widzimy Nans w naszych danych, ale wiemy, że brakuje wartości, ponieważ wiemy, jak wygląda prawdziwa populacja USA.
Metody imputacji obejmują: Weight-Class Adjustments.
2.Item Non-Response
Item Non-Response jest tym, o czym większość ludzi myśli jako o brakujących wartościach. Jest to sytuacja, gdy brakuje konkretnych komórek w kolumnie, a ilość brakujących danych może zająć dowolny procent kolumny (polecam bibliotekę missingno, aby to zwizualizować).
Metody imputacji obejmują (od najprostszych do najbardziej zaawansowanych): Imputacja dedukcyjna, Imputacja średniej/mediany/modelu, Imputacja gorącego dołu, Imputacja oparta na modelu, Wielokrotna właściwa regresja stochastyczna i Podejście wzorcowe.
Wybór odpowiedniej metody dla Twoich danych będzie zależał od rodzaju braku odpowiedzi na pytania, z którym masz do czynienia. Są to możliwe kategorie:
A.MCAR
MCAR oznacza Brak Całkowicie Losowy. To zdarza się, gdy brakujące wartości są brakujące niezależnie od wszystkich cech, jak również od celu (w tym samego w sobie). Oznacza to, że nie ma systematycznej różnicy między brakującymi i dostępnymi danymi.
B. MAR
MAR to skrót od Missing at Random. Występuje, gdy brakująca wartość jest zależna od zmiennej, ale niezależna od niej samej. Na przykład, jeśli zbieramy dane o jakości wody i mamy dzień, w którym nasz czujnik się zepsuje, wtedy brakujące wartości będą zależały od daty. Jednak są one całkowicie niezależne od siebie (tzn. brakuje nam pH, ponieważ czujnik zepsuł się na jeden dzień, a nie dlatego, że było pH, którego cenzor nie jest w stanie odczytać). Tutaj nadal nie ma systematycznej różnicy między danymi, które mamy lub których nie mamy.
C.MNAR
MNAR oznacza Missing Not at Random. Jest to przypadek, w którym brak wartości jest zależny od samej wartości. W tym przypadku dane, które są dostępne i brakujące dane są systematycznie różne. Na przykład, w ankietach, osoby o niższych dochodach rzadziej odpowiadają na pytania o to, ile zarabiają i dlatego brakuje niższych wartości, ponieważ są one niskie.
Weight-Class Adjustments
- Plusy: Szybkość – Bardzo przydatne, gdy zbieranie danych jest niezrównoważone pomiędzy klasami.
- Wady: Wymaga wcześniejszej wiedzy o rozkładzie danych – Wymaga pewnych danych dla każdej kategorii w zbiorze danych – Podatna na wartości odstające – Może zwiększać wariancję oszacowań.
- Obsługuje: Unit Non-Response.
Jak sama nazwa wskazuje, ta metoda bierze dane, które są dla nas dostępne i ponownie waży je w oparciu o prawdziwy rozkład naszej populacji.
Na przykład, powiedzmy, że jesteśmy firmą zajmującą się makijażem i chcemy zdecydować, co produkować. Dla uproszczenia, załóżmy, że wszystkie dziewczyny chcą zobaczyć błyszczące wykończenia, wszyscy chłopcy chcą zobaczyć matowe wykończenia, a wszystkie nasze queer costumers chcą zobaczyć brokat. W tym przypadku załóżmy, że wiemy, że 40% naszych klientek identyfikuje się jako queer, 10% jako mężczyzna i 60% jako kobieta, ale nie odpowiada to proporcjom osób, które odpowiedziały na naszą ankietę. Być może odpowiedziało 50 chłopców, 200 odmieńców i 10 dziewczyn. Oznacza to, że wyniki ankiety nie odzwierciedlałyby tego, czego naprawdę pragnie nasza baza klientów, co moglibyśmy naprawić poprzez przekształcenie każdego zestawu odpowiedzi w rzeczywiste wartości procentowe.
Jako ostrzeżenie, 10 dziewcząt nie jest niczym, co reprezentowałoby 60% populacji, ponieważ w prawdziwym świecie nie wszystkie odpowiedziałyby na to samo. Dlatego też, jeśli doszliśmy do wniosku, że dziewczyny chciały shimmer i uczynił to 60% naszych danych, ale były w błędzie, bylibyśmy hemorrhaging nasze zarobki. Zawsze pamiętaj, że ta metoda opiera się na dobrym próbkowaniu, jak również na znajomości prawdziwego rozkładu danych, które zbieramy.