In der realen Welt sind fehlende Daten ein fast unvermeidliches Problem. Nur einige wenige können es umgehen – in der Regel durch große Investitionen in die Datenerhebung. Dieses Problem ist von entscheidender Bedeutung, denn die Art und Weise, wie wir mit fehlenden Daten umgehen, wirkt sich direkt auf unsere Ergebnisse aus und hat auch Auswirkungen auf das Zeitmanagement. Daher sollte es immer Priorität haben, mit fehlenden Daten richtig umzugehen, was viel schwieriger sein kann, als es scheint. Die Schwierigkeit entsteht, wenn wir erkennen, dass nicht alle fehlenden Daten gleich sind, nur weil sie alle gleich aussehen – ein leeres Feld – und dass verschiedene Arten von fehlenden Daten unterschiedlich behandelt werden müssen. In diesem Artikel werden die Arten von fehlenden Daten sowie grundlegende und fortgeschrittene Methoden zu ihrer Behandlung vorgestellt.

Arten von fehlenden Daten

Einheitliche Nichtbeantwortung bezieht sich auf ganze Zeilen fehlender Daten. Ein Beispiel hierfür sind Personen, die sich entscheiden, die Volkszählung nicht auszufüllen. Hier sehen wir nicht unbedingt Nans in unseren Daten, aber wir wissen, dass Werte fehlen, weil wir wissen, wie die tatsächliche Bevölkerung der USA aussieht.

Zu den Imputationsmethoden gehören: Gewichtsklassenanpassungen.

2.Item Non-Response

Item Non-Response ist das, was sich die meisten Leute unter fehlenden Werten vorstellen. Dies ist der Fall, wenn bestimmte Zellen einer Spalte fehlen, und die Menge der fehlenden Daten kann einen beliebigen Prozentsatz der Spalte einnehmen (ich empfehle die Bibliothek missingno, um dies zu visualisieren).

Imputationsmethoden umfassen (von einfachsten bis zu fortgeschrittensten): Deduktive Imputation, Mittelwert/Mittelwert/Modus-Imputation, Hot-Deck-Imputation, modellbasierte Imputation, Multiple Proper Stochastic Regression und der Pattern Submodel-Ansatz.

Die Wahl der geeigneten Methode für Ihre Daten hängt von der Art der Item-Non-Response ab, mit der Sie konfrontiert sind. Dies sind die möglichen Kategorien:

A.MCAR

MCAR steht für Missing Completely at Random. Dies ist der Fall, wenn fehlende Werte unabhängig von allen Merkmalen sowie der Zielperson (einschließlich der Zielperson selbst) fehlen. Das bedeutet, dass es keinen systematischen Unterschied zwischen den fehlenden und den vorhandenen Daten gibt.

B. MAR

MAR steht für Missing at Random. Dies tritt auf, wenn der fehlende Wert von einer Variablen abhängt, aber unabhängig von ihr ist. Wenn wir zum Beispiel Wasserqualitätsdaten sammeln und an einem Tag der Sensor kaputt geht, dann hängen die fehlenden Werte vom Datum ab. Sie sind jedoch völlig unabhängig von sich selbst (d. h. wir vermissen den pH-Wert, weil der Sensor einen Tag lang kaputt war, und nicht, weil es einen pH-Wert gab, den der Zensor nicht messen konnte). Hier gibt es immer noch keinen systematischen Unterschied zwischen den Daten, die wir haben oder nicht haben.

C.MNAR

MNAR steht für Missing Not at Random. Dies ist der Fall, wenn die Missingness eines Wertes von dem Wert selbst abhängt. In diesem Fall unterscheiden sich die verfügbaren Daten und die fehlenden Daten systematisch. Bei Erhebungen ist es zum Beispiel weniger wahrscheinlich, dass Personen mit geringem Einkommen auf Fragen nach ihrem Einkommen antworten, und daher fehlen die niedrigeren Werte, weil sie niedrig sind.

Gewichtsklassenanpassungen

  • Vorteile: Schnell – Sehr nützlich, wenn die Datenerfassung in den Klassen unausgewogen ist.
  • Nachteile: Erfordert Vorwissen über die Verteilung der Daten – Erfordert einige Daten für jede Kategorie in einem Datensatz – Anfällig für Ausreißer – Kann die Varianz der Schätzungen erhöhen.
  • Behandelt: Unit Non-Response.

Wie der Name schon sagt, werden bei dieser Methode die verfügbaren Daten auf der Grundlage der wahren Verteilung der Grundgesamtheit neu gewichtet.

Angenommen, wir sind ein Make-up-Unternehmen und wollen entscheiden, was wir herstellen wollen. Nehmen wir der Einfachheit halber an, alle Mädchen wollen schimmernde Farben sehen, alle Jungen wollen matte Farben sehen, und alle seltsamen Kunden wollen Glitzer sehen. In diesem Fall wissen wir, dass sich 40 % unserer Kunden als queer, 10 % als männlich und 60 % als weiblich identifizieren, aber das entspricht nicht dem Anteil der Personen, die unsere Umfrage beantwortet haben. Vielleicht haben 50 Jungen geantwortet, 200 queere Menschen und 10 Mädchen. Das bedeutet, dass die Ergebnisse der Umfrage nicht das widerspiegeln, was unsere Kunden wirklich wollen, was wir ändern könnten, indem wir die einzelnen Antworten in echte Prozentzahlen umwandeln.

Als Warnung: 10 Mädchen repräsentieren nicht 60 % der Bevölkerung, denn in der realen Welt würden sie nicht alle dasselbe antworten. Wenn wir also zu dem Schluss kämen, dass Mädchen Schimmer wollen, und dies zu 60 % unserer Daten machten, uns aber irrten, würden wir uns um unsere Einnahmen bringen. Denken Sie immer daran, dass diese Methode von einer guten Stichprobe abhängt und dass wir die wahre Verteilung der Daten, die wir sammeln, kennen müssen.

Deduktive Imputation

  • Vorteile: Minimale Inferenz – Führt keine Varianz oder Verzerrung ein.
  • Nachteile: Kodierungsintensiv – Oft nicht möglich.
  • Behandelt: Alle Arten von fehlenden Daten!

Diese Art der Imputation ist vielleicht die offensichtlichste und am wenigsten problematische, aber viele von uns vergessen sie, wenn große Datenmengen fehlen. Manchmal können wir fehlende Werte aus dem Rest der Informationen ableiten, und obwohl dies eine Menge Codierung für jeden einzelnen Satz von Ableitungen erfordern kann, ist es eine gute Praxis.

Wenn wir zum Beispiel Informationen über Haustiere haben und wir ihre Geburtsdaten haben, aber einige Altersangaben fehlen, können wir diese leicht auffüllen.

Mittelwert/Mittelwert/Modus-Imputation

  • Vorteile: Einfach.
  • Nachteile: Verzerrt das Histogramm – Unterschätzt die Varianz.
  • Behandelt: MCAR und MAR Item Non-Response.

Dies ist die gängigste Methode der Datenimputation, bei der Sie einfach alle fehlenden Werte durch den Mittelwert, Median oder Modus der Spalte ersetzen. Diese Methode ist zwar nützlich, wenn man es eilig hat, weil sie einfach und schnell ist, aber sie verändert die statistische Natur der Daten. Dadurch werden nicht nur die Histogramme verzerrt, sondern auch die Varianz der Daten unterschätzt, da zahlreiche Werte exakt gleich sind (was in Wirklichkeit natürlich nicht der Fall ist). Obwohl diese Praxis sehr verbreitet ist, sollten Sie sie tunlichst vermeiden. Sie wird Ihre Ergebnisse verfälschen, und Sie sollten sie niemals verwenden, wenn Ihre Daten MNAR sind!

Hot-Deck Imputation

  • Vorteile: Nutzt vorhandene Daten.
  • Nachteile: Multivariable Beziehungen werden verzerrt.
  • Behandelt: MCAR und MAR Item Non-Response.

Diese Methode ist eine weitere einfache Methode, bei der fehlende Werte durch Zufallswerte aus dieser Spalte ersetzt werden. Diese Methode hat zwar den Vorteil, dass sie einfach ist, aber Sie sollten besonders vorsichtig sein, wenn Sie versuchen, die Art der Merkmale und ihre Beziehung zueinander zu untersuchen, da multivariable Beziehungen verzerrt werden.

Modellbasierte Imputation (Regression, Bayes usw.)

  • Vorteile: Verbesserung gegenüber der Imputation von Mittelwert/Mittelwert/Modus.
  • Nachteile: Verzerrt immer noch Histogramme – Unterschätzt die Varianz.
  • Behandelt: MCAR und MAR Item Non-Response

Diese Methode sagt fehlende Werte voraus, als ob sie ein Ziel wären, und kann verschiedene Modelle verwenden, wie Regression oder Naive Bayes. In einigen Fällen wird eine Zufälligkeit eingeführt, die leichte Verbesserungen bewirkt (d.h. die stochastische Regression ist besser als die Regression).

Proper Multiple Stochastic Regression

  • Vorteile: Die Varianz ist genau – Es ist eine gut getestete Methode.
  • Nachteile: Erfordert mehr Aufwand – Ist rechenintensiv.
  • Behandelt: MCAR und MAR Item Non-Response.

PMSR ist viel komplexer als die anderen Methoden, die wir uns angesehen haben, kann aber trotzdem relativ schnell mit fancyimpute implementiert werden. Hier nutzen wir die Imputationsmethode der stochastischen Regression, aber wir führen sie „mehrfach“ durch. Zu diesem Zweck erstellen wir Kopien unseres Datensatzes, einschließlich der leeren Zellen. Dann füllen wir jede Kopie mit den Vorhersagen eines einzigen stochastischen Regressionsmodells auf, so als ob wir ein kleines Histogramm in jede leere Zelle einfügen würden! Und Voila: wir haben unsere Varianz genau gehalten!

Pattern Submodel Approach

  • Vorteile: Behandelt alle Arten von Item Non-Response! – Es unterschätzt die Varianz nicht.
  • Nachteile: Nicht gut getestet – Arbeitsintensiv.
  • Behandelt: Alle Arten von Item Non-Response (einschließlich MNAR)!

Diese Methode ist die neueste, raffinierteste und angemessenste Imputationstechnik, die es gibt. Sie besteht darin, die Daten in verschiedene Missingness-Muster aufzuteilen und dann ein Modell an jedes Muster anzupassen, um die Werte vorherzusagen. Dabei werden keine Annahmen getroffen, es ist rechnerisch effizient (auch wenn es arbeitsintensiv sein kann) und es kann MNAR-Daten verarbeiten. Hier ein Beispiel dafür, was wir mit Missingness-Mustern meinen:

Beachten Sie, dass das violette Muster nur eine Zeile hat, so dass wir es vielleicht mit anderen kleinen Missingness-Mustern zusammenfassen wollen, um eine Überanpassung zu vermeiden.

admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg