Dans le monde réel, les données manquantes sont un problème presque inévitable. Seuls quelques privilégiés peuvent l’éviter, généralement grâce à de gros investissements dans la collecte de données. Cette question est cruciale car la façon dont nous traitons les données manquantes a un impact direct sur nos résultats, et elle plonge également dans la gestion du temps. Par conséquent, il devrait toujours être prioritaire de traiter correctement les données manquantes, ce qui peut être beaucoup plus difficile qu’il n’y paraît. La difficulté survient lorsque l’on se rend compte que toutes les données manquantes ne sont pas égales parce qu’elles se ressemblent toutes – un espace vide – et que les différents types de données manquantes doivent être traités différemment. Dans cet article, nous passons en revue les types de données manquantes, ainsi que les méthodes de base et avancées pour les traiter.
Types de données manquantes
La non-réponse unitaire fait référence à des lignes entières de données manquantes. Un exemple de cela pourrait être les personnes qui choisissent de ne pas remplir le recensement. Ici, nous ne voyons pas nécessairement des Nans dans nos données, mais nous savons qu’il y a des valeurs manquantes parce que nous savons à quoi ressemble la population réelle des États-Unis.
Les méthodes d’imputation comprennent : Les ajustements par classe de poids.
2.La non-réponse d’élément
La non-réponse d’élément est ce que la plupart des gens pensent être des valeurs manquantes. C’est lorsque des cellules spécifiques d’une colonne sont manquantes, et la quantité de données manquantes peut prendre n’importe quel pourcentage de la colonne (je recommande la bibliothèque missingno pour visualiser cela).
Les méthodes d’imputation comprennent (de la plus simple à la plus avancée) : L’imputation déductive, l’imputation moyenne/médiane/mode, l’imputation Hot-Deck, l’imputation basée sur un modèle, la régression stochastique propre multiple et l’approche du sous-modèle de modèle.
Le choix de la méthode appropriée pour vos données dépendra du type de non-réponse à l’item auquel vous êtes confronté. Voici les catégories possibles :
A.MCAR
MCAR signifie Missing Completely at Random (manquant complètement au hasard). Cela se produit lorsque les valeurs manquantes manquent indépendamment de toutes les caractéristiques ainsi que de la cible (y compris elle-même). Cela signifie qu’il n’y a pas de différence systématique entre les données manquantes et les données disponibles.
B. MAR
MAR est l’abréviation de Missing at Random (manquant au hasard). Cela se produit lorsque la valeur manquante dépend d’une variable, mais est indépendante d’elle-même. Par exemple, si nous collectons des données sur la qualité de l’eau et que nous avons un jour où notre capteur se casse, alors les valeurs manquantes dépendront de la date. Cependant, elles sont complètement indépendantes d’elles-mêmes (c’est-à-dire qu’il nous manque le pH parce que le capteur est tombé en panne pendant une journée, et non parce qu’il y a eu un pH que le censeur est incapable de lire). Ici, il n’y a toujours pas de différence systématique entre les données que nous avons ou que nous n’avons pas.
C.MNAR
MNAR signifie Missing Not at Random (manquant non aléatoire). C’est le cas où le caractère manquant d’une valeur dépend de la valeur elle-même. Ici, les données disponibles et les données manquantes sont systématiquement différentes. Par exemple, dans les enquêtes, les personnes ayant des revenus plus faibles sont moins susceptibles de répondre aux questions sur ce qu’elles gagnent, et donc les valeurs les plus faibles sont manquantes parce qu’elles sont faibles.
Ajustements par classe de poids
- Pros : Rapide – Très utile lorsque la collecte de données est déséquilibrée entre les classes.
- Contre : Nécessite des connaissances préalables sur la distribution des données – Nécessite certaines données pour chaque catégorie dans un ensemble de données – Susceptible de présenter des valeurs aberrantes – Peut augmenter la variance des estimations.
- Gère : Non-réponse de l’unité.
Comme son nom l’indique, cette méthode prend les données dont nous disposons et les repondère en fonction de la distribution réelle de notre population.
Par exemple, disons que nous sommes une entreprise de maquillage et que nous voulons décider ce qu’il faut fabriquer. Pour simplifier, supposons que toutes les filles veulent voir des finitions chatoyantes, que tous les garçons veulent voir des finitions mates, et que tous nos costumiers queer veulent voir des paillettes. Dans ce cas, disons que nous savons que 40 % de nos clients s’identifient comme queers, 10 % comme hommes et 60 % comme femmes, mais que cela ne correspond pas à la proportion de personnes ayant répondu à notre enquête. Peut-être que 50 garçons ont répondu, que 200 personnes homosexuelles ont répondu et que 10 filles ont répondu. Cela signifie que les résultats de l’enquête ne refléteraient pas ce que notre clientèle souhaite réellement le plus, ce que nous pourrions corriger en transformant chaque ensemble de réponses en pourcentages réels.
A titre d’avertissement, 10 filles ne représentent en rien 60% de la population, car dans le monde réel, elles ne répondraient pas toutes la même chose. Par conséquent, si nous avions conclu que les filles voulaient du shimmer et que nous en faisions 60% de nos données, mais que nous nous trompions, nous aurions une hémorragie de gains. N’oubliez jamais que cette méthode repose sur un bon échantillonnage, ainsi que sur la connaissance de la distribution réelle des données que nous recueillons.