Dans le monde réel, les données manquantes sont un problème presque inévitable. Seuls quelques privilégiés peuvent l’éviter, généralement grâce à de gros investissements dans la collecte de données. Cette question est cruciale car la façon dont nous traitons les données manquantes a un impact direct sur nos résultats, et elle plonge également dans la gestion du temps. Par conséquent, il devrait toujours être prioritaire de traiter correctement les données manquantes, ce qui peut être beaucoup plus difficile qu’il n’y paraît. La difficulté survient lorsque l’on se rend compte que toutes les données manquantes ne sont pas égales parce qu’elles se ressemblent toutes – un espace vide – et que les différents types de données manquantes doivent être traités différemment. Dans cet article, nous passons en revue les types de données manquantes, ainsi que les méthodes de base et avancées pour les traiter.

Types de données manquantes

La non-réponse unitaire fait référence à des lignes entières de données manquantes. Un exemple de cela pourrait être les personnes qui choisissent de ne pas remplir le recensement. Ici, nous ne voyons pas nécessairement des Nans dans nos données, mais nous savons qu’il y a des valeurs manquantes parce que nous savons à quoi ressemble la population réelle des États-Unis.

Les méthodes d’imputation comprennent : Les ajustements par classe de poids.

2.La non-réponse d’élément

La non-réponse d’élément est ce que la plupart des gens pensent être des valeurs manquantes. C’est lorsque des cellules spécifiques d’une colonne sont manquantes, et la quantité de données manquantes peut prendre n’importe quel pourcentage de la colonne (je recommande la bibliothèque missingno pour visualiser cela).

Les méthodes d’imputation comprennent (de la plus simple à la plus avancée) : L’imputation déductive, l’imputation moyenne/médiane/mode, l’imputation Hot-Deck, l’imputation basée sur un modèle, la régression stochastique propre multiple et l’approche du sous-modèle de modèle.

Le choix de la méthode appropriée pour vos données dépendra du type de non-réponse à l’item auquel vous êtes confronté. Voici les catégories possibles :

A.MCAR

MCAR signifie Missing Completely at Random (manquant complètement au hasard). Cela se produit lorsque les valeurs manquantes manquent indépendamment de toutes les caractéristiques ainsi que de la cible (y compris elle-même). Cela signifie qu’il n’y a pas de différence systématique entre les données manquantes et les données disponibles.

B. MAR

MAR est l’abréviation de Missing at Random (manquant au hasard). Cela se produit lorsque la valeur manquante dépend d’une variable, mais est indépendante d’elle-même. Par exemple, si nous collectons des données sur la qualité de l’eau et que nous avons un jour où notre capteur se casse, alors les valeurs manquantes dépendront de la date. Cependant, elles sont complètement indépendantes d’elles-mêmes (c’est-à-dire qu’il nous manque le pH parce que le capteur est tombé en panne pendant une journée, et non parce qu’il y a eu un pH que le censeur est incapable de lire). Ici, il n’y a toujours pas de différence systématique entre les données que nous avons ou que nous n’avons pas.

C.MNAR

MNAR signifie Missing Not at Random (manquant non aléatoire). C’est le cas où le caractère manquant d’une valeur dépend de la valeur elle-même. Ici, les données disponibles et les données manquantes sont systématiquement différentes. Par exemple, dans les enquêtes, les personnes ayant des revenus plus faibles sont moins susceptibles de répondre aux questions sur ce qu’elles gagnent, et donc les valeurs les plus faibles sont manquantes parce qu’elles sont faibles.

Ajustements par classe de poids

  • Pros : Rapide – Très utile lorsque la collecte de données est déséquilibrée entre les classes.
  • Contre : Nécessite des connaissances préalables sur la distribution des données – Nécessite certaines données pour chaque catégorie dans un ensemble de données – Susceptible de présenter des valeurs aberrantes – Peut augmenter la variance des estimations.
  • Gère : Non-réponse de l’unité.

Comme son nom l’indique, cette méthode prend les données dont nous disposons et les repondère en fonction de la distribution réelle de notre population.

Par exemple, disons que nous sommes une entreprise de maquillage et que nous voulons décider ce qu’il faut fabriquer. Pour simplifier, supposons que toutes les filles veulent voir des finitions chatoyantes, que tous les garçons veulent voir des finitions mates, et que tous nos costumiers queer veulent voir des paillettes. Dans ce cas, disons que nous savons que 40 % de nos clients s’identifient comme queers, 10 % comme hommes et 60 % comme femmes, mais que cela ne correspond pas à la proportion de personnes ayant répondu à notre enquête. Peut-être que 50 garçons ont répondu, que 200 personnes homosexuelles ont répondu et que 10 filles ont répondu. Cela signifie que les résultats de l’enquête ne refléteraient pas ce que notre clientèle souhaite réellement le plus, ce que nous pourrions corriger en transformant chaque ensemble de réponses en pourcentages réels.

A titre d’avertissement, 10 filles ne représentent en rien 60% de la population, car dans le monde réel, elles ne répondraient pas toutes la même chose. Par conséquent, si nous avions conclu que les filles voulaient du shimmer et que nous en faisions 60% de nos données, mais que nous nous trompions, nous aurions une hémorragie de gains. N’oubliez jamais que cette méthode repose sur un bon échantillonnage, ainsi que sur la connaissance de la distribution réelle des données que nous recueillons.

Imputation déductive

  • Avantages : Inférence minimale – N’introduit pas de variance ou de biais.
  • Contre : Codage intensif – Souvent impossible.
  • Traite : Tous les types de données manquantes !

Ce type d’imputation est peut-être le plus évident et le moins problématique, mais beaucoup d’entre nous l’oublient lorsque nous voyons de grands morceaux de données manquantes. Parfois, nous pouvons déduire les valeurs manquantes du reste de l’information, et bien que cela puisse demander beaucoup de codage pour chaque ensemble individuel de déductions, c’est une bonne pratique.

Par exemple, si nous avons des informations sur les animaux de compagnie et que nous avons leurs dates de naissance mais qu’il nous manque certains âges, nous pouvons facilement les compléter.

Imputation moyenne/médiane/mode

  • Pros : Facile.
  • Contre : déforme l’histogramme – sous-estime la variance.
  • Gère : Non-réponse aux items MCAR et MAR.

C’est la méthode la plus courante d’imputation de données, où vous remplacez simplement toutes les valeurs manquantes par la moyenne, la médiane ou le mode de la colonne. Bien que cette méthode soit utile si vous êtes pressé car elle est facile et rapide, elle modifie la nature statistique des données. Non seulement cela fausse nos histogrammes, mais cela sous-estime également la variance de nos données car nous rendons de nombreuses valeurs identiques (alors qu’en réalité, elles ne le seraient évidemment pas). Par conséquent, bien que cette pratique soit très courante, vous devez faire de votre mieux pour l’éviter. Elle déformera vos résultats, et vous ne devriez jamais l’utiliser si vos données sont MNAR !

Hot-Deck Imputation

  • Avantages : Utilise les données existantes.
  • Inconvénients : les relations multivariables sont déformées.
  • Traite : Non-réponse aux items MCAR et MAR.

Cette méthode est une autre méthode simple, où les valeurs manquantes sont remplacées par des valeurs aléatoires de cette colonne. Bien que cela ait l’avantage d’être simple, faites très attention si vous essayez d’examiner la nature des caractéristiques et la façon dont elles sont liées les unes aux autres, car les relations multivariables seront déformées.

Imputation basée sur un modèle (régression, bayésienne, etc)

  • Avantages : Amélioration par rapport à l’imputation par la moyenne/médiane/mode.
  • Contre : déforme toujours les histogrammes – sous-estime la variance.
  • Gère : MCAR et MAR Non-réponse aux items

Cette méthode prédit les valeurs manquantes comme si elles étaient une cible, et peut utiliser différents modèles, comme la régression ou Naive Bayes. Dans certains cas, le caractère aléatoire est introduit, ce qui génère de légères améliorations (c’est-à-dire que la régression stochastique est meilleure que la régression).

Régression stochastique multiple appropriée

  • Pros : La variance est précise – C’est une méthode bien testée.
  • Inconvénients : Demande plus d’efforts – Intensifie les calculs.
  • Gère : MCAR et MAR Non-réponse d’élément.

PMSR est beaucoup plus complexe que les autres méthodes que nous avons examinées, mais peut encore être mis en œuvre relativement rapidement en utilisant fancyimpute. Ici, nous profitons de la méthode d’imputation par régression stochastique, mais nous le faisons  » plusieurs  » fois. Pour ce faire, nous faisons des copies de notre ensemble de données, y compris les cellules vides. Nous remplissons ensuite chaque copie avec les prédictions d’un modèle de régression stochastique unique, et donc, c’est comme si nous insérions un petit histogramme dans chaque cellule vide ! Et voilà : nous avons gardé notre variance précise !

Approche de sous-modèle de modèle

  • Pros : Il gère tous les types de non-réponse aux items ! – Il ne sous-estime pas la variance.
  • Inconvénients : n’a pas été bien testé – demande beaucoup de travail.
  • Gère : Tous les types de non-réponse aux items(y compris MNAR) !

Cette méthode est la plus récente, la plus fantaisiste et la plus adéquate des techniques d’imputation disponibles. Elle consiste à décomposer les données en différents schémas de manquants, puis à adapter un modèle à chacun d’eux afin de prédire les valeurs. Cette technique n’émet aucune hypothèse, elle est efficace sur le plan informatique (bien qu’elle puisse demander beaucoup de travail) et elle peut traiter les données MNAR. Voici un exemple de ce que nous entendons par modèles de manque :

Notez que le modèle violet n’a qu’une seule ligne, nous pourrions donc vouloir le regrouper avec d’autres petits modèles de manque pour éviter un ajustement excessif.

admin

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

lg