In der realen Welt sind fehlende Daten ein fast unvermeidliches Problem. Nur einige wenige können es umgehen – in der Regel durch große Investitionen in die Datenerhebung. Dieses Problem ist von entscheidender Bedeutung, denn die Art und Weise, wie wir mit fehlenden Daten umgehen, wirkt sich direkt auf unsere Ergebnisse aus und hat auch Auswirkungen auf das Zeitmanagement. Daher sollte es immer Priorität haben, mit fehlenden Daten richtig umzugehen, was viel schwieriger sein kann, als es scheint. Die Schwierigkeit entsteht, wenn wir erkennen, dass nicht alle fehlenden Daten gleich sind, nur weil sie alle gleich aussehen – ein leeres Feld – und dass verschiedene Arten von fehlenden Daten unterschiedlich behandelt werden müssen. In diesem Artikel werden die Arten von fehlenden Daten sowie grundlegende und fortgeschrittene Methoden zu ihrer Behandlung vorgestellt.
Einheitliche Nichtbeantwortung bezieht sich auf ganze Zeilen fehlender Daten. Ein Beispiel hierfür sind Personen, die sich entscheiden, die Volkszählung nicht auszufüllen. Hier sehen wir nicht unbedingt Nans in unseren Daten, aber wir wissen, dass Werte fehlen, weil wir wissen, wie die tatsächliche Bevölkerung der USA aussieht.
Zu den Imputationsmethoden gehören: Gewichtsklassenanpassungen.
2.Item Non-Response
Item Non-Response ist das, was sich die meisten Leute unter fehlenden Werten vorstellen. Dies ist der Fall, wenn bestimmte Zellen einer Spalte fehlen, und die Menge der fehlenden Daten kann einen beliebigen Prozentsatz der Spalte einnehmen (ich empfehle die Bibliothek missingno, um dies zu visualisieren).
Imputationsmethoden umfassen (von einfachsten bis zu fortgeschrittensten): Deduktive Imputation, Mittelwert/Mittelwert/Modus-Imputation, Hot-Deck-Imputation, modellbasierte Imputation, Multiple Proper Stochastic Regression und der Pattern Submodel-Ansatz.
Die Wahl der geeigneten Methode für Ihre Daten hängt von der Art der Item-Non-Response ab, mit der Sie konfrontiert sind. Dies sind die möglichen Kategorien:
A.MCAR
MCAR steht für Missing Completely at Random. Dies ist der Fall, wenn fehlende Werte unabhängig von allen Merkmalen sowie der Zielperson (einschließlich der Zielperson selbst) fehlen. Das bedeutet, dass es keinen systematischen Unterschied zwischen den fehlenden und den vorhandenen Daten gibt.
B. MAR
MAR steht für Missing at Random. Dies tritt auf, wenn der fehlende Wert von einer Variablen abhängt, aber unabhängig von ihr ist. Wenn wir zum Beispiel Wasserqualitätsdaten sammeln und an einem Tag der Sensor kaputt geht, dann hängen die fehlenden Werte vom Datum ab. Sie sind jedoch völlig unabhängig von sich selbst (d. h. wir vermissen den pH-Wert, weil der Sensor einen Tag lang kaputt war, und nicht, weil es einen pH-Wert gab, den der Zensor nicht messen konnte). Hier gibt es immer noch keinen systematischen Unterschied zwischen den Daten, die wir haben oder nicht haben.
C.MNAR
MNAR steht für Missing Not at Random. Dies ist der Fall, wenn die Missingness eines Wertes von dem Wert selbst abhängt. In diesem Fall unterscheiden sich die verfügbaren Daten und die fehlenden Daten systematisch. Bei Erhebungen ist es zum Beispiel weniger wahrscheinlich, dass Personen mit geringem Einkommen auf Fragen nach ihrem Einkommen antworten, und daher fehlen die niedrigeren Werte, weil sie niedrig sind.