En el mundo real, la falta de datos es un problema casi inevitable. Sólo unos pocos pueden eludirlo, normalmente mediante grandes inversiones en la recogida de datos. Esta cuestión es crucial porque la forma en que manejamos los datos faltantes tiene un impacto directo en nuestros hallazgos, y también incide en la gestión del tiempo. Por lo tanto, siempre debe ser una prioridad manejar adecuadamente los datos que faltan, lo cual puede ser mucho más difícil de lo que parece. La dificultad surge cuando nos damos cuenta de que no todos los datos que faltan son iguales porque todos tienen el mismo aspecto -un espacio en blanco- y que los distintos tipos de datos que faltan deben tratarse de forma diferente. En este artículo, revisamos los tipos de datos faltantes, así como los métodos básicos y avanzados para abordarlos.

Tipos de datos faltantes

La falta de respuesta de la unidad se refiere a filas enteras de datos faltantes. Un ejemplo de esto podría ser la gente que decide no rellenar el censo. Aquí, no necesariamente vemos Nans en nuestros datos, pero sabemos que hay valores que faltan porque sabemos cómo es la población real de los Estados Unidos.

Los métodos de imputación incluyen: Ajustes de la clase de peso.

2.La no respuesta de los ítems

La no respuesta de los ítems es lo que la mayoría de la gente considera como valores perdidos. Esto es cuando faltan celdas específicas de una columna, y la cantidad de datos faltantes puede tomar cualquier porcentaje de la columna (recomiendo la biblioteca missingno para visualizar esto).

Los métodos de imputación incluyen (del más simple al más avanzado): Imputación deductiva, Imputación de media/mediana/modo, Imputación en caliente, Imputación basada en el modelo, Regresión estocástica múltiple adecuada y el enfoque de submodelo de patrón.

La elección del método apropiado para sus datos dependerá del tipo de falta de respuesta del elemento al que se enfrente. Estas son las posibles categorías:

A.MCAR

MCAR significa Missing Completely at Random. Esto ocurre cuando los valores perdidos faltan independientemente de todas las características así como del objetivo (incluido él mismo). Esto significa que no hay una diferencia sistemática entre los datos que faltan y los disponibles.

B. MAR

MAR significa Missing at Random. Esto ocurre cuando el valor que falta depende de una variable, pero es independiente de ella. Por ejemplo, si estamos recogiendo datos sobre la calidad del agua y tenemos un día en el que nuestro sensor se rompe, los valores perdidos dependerán de la fecha. Sin embargo, son completamente independientes de sí mismos (es decir, nos falta el pH porque el sensor se ha roto durante un día, y no porque haya habido un pH que el censor sea incapaz de leer). Aquí, todavía no hay ninguna diferencia sistemática entre los datos que tenemos o no tenemos.

C.MNAR

MNAR significa Missing Not at Random. Es el caso en el que la ausencia de un valor depende del propio valor. En este caso, los datos disponibles y los que faltan son sistemáticamente diferentes. Por ejemplo, en las encuestas, es menos probable que las personas con ingresos más bajos respondan a las preguntas sobre cuánto ganan y, por lo tanto, los valores más bajos faltan porque son bajos.

Ajustes por clase de peso

  • Pros: Rápido – Muy útil cuando la recogida de datos está desequilibrada entre las clases.
  • Contras: Requiere conocimiento previo sobre la distribución de los datos – Requiere algunos datos para cada categoría en un conjunto de datos – Susceptible a los valores atípicos – Puede aumentar la varianza de las estimaciones.
  • Maneja: Unidad de no respuesta.

Como su nombre indica, este método toma los datos de los que disponemos y los reponen basándose en la verdadera distribución de nuestra población.

Por ejemplo, digamos que somos una empresa de maquillaje y queremos decidir qué fabricar. Para simplificar, supongamos que todas las chicas quieren ver acabados brillantes, todos los chicos quieren ver acabados mates y todos nuestros clientes maricas quieren ver brillos. En este caso, digamos que sabemos que el 40% de nuestros clientes se identifican como maricas, el 10% como hombres y el 60% como mujeres, pero esto no coincide con la proporción de personas que respondieron a nuestra encuesta. Puede que hayan respondido 50 chicos, 200 personas queer y 10 chicas. Esto significa que las conclusiones de la encuesta no reflejarían lo que realmente quiere nuestra clientela, lo que podríamos arreglar convirtiendo cada conjunto de respuestas en los porcentajes reales.

Como advertencia, 10 chicas no es nada para representar el 60% de la población, porque en el mundo real no responderían todas lo mismo. Por lo tanto, si llegamos a la conclusión de que las chicas querían shimmer e hicimos que este fuera el 60% de nuestros datos, pero nos equivocamos, estaríamos haciendo una hemorragia en nuestras ganancias. Recuerde siempre que este método depende de un buen muestreo, así como de conocer la verdadera distribución de los datos que estamos recogiendo.

Imputación deductiva

  • Pros: Inferencia mínima – No introduce varianza ni sesgo.
  • Contras: Codificación intensiva – A menudo no es posible.
  • Maneja: ¡Todos los tipos de datos perdidos!

Este tipo de imputación es quizás el más obvio y menos problemático, pero muchos de nosotros nos olvidamos de él cuando vemos que faltan grandes trozos de datos. A veces, podemos deducir los valores que faltan a partir del resto de la información, y aunque esto puede llevar mucha codificación para cada conjunto individual de deducciones, es una buena práctica.

Por ejemplo, si tenemos información sobre mascotas y tenemos sus fechas de nacimiento pero nos faltan algunas edades, podemos rellenarlas fácilmente.

Imputación de la media/mediana/modo

  • Pros: Fácil.
  • Contras: Distorsiona el histograma – Subestima la varianza.
  • Maneja: MCAR y MAR Item Non-Response.

Este es el método más común de imputación de datos, en el que simplemente se sustituyen todos los valores perdidos por la media, la mediana o la moda de la columna. Aunque esto es útil si tiene prisa porque es fácil y rápido, cambia la naturaleza estadística de los datos. Esto no sólo sesga nuestros histogramas, sino que también subestima la varianza de nuestros datos porque estamos haciendo que numerosos valores sean exactamente iguales (cuando en realidad evidentemente no lo serían). Por lo tanto, aunque esta práctica es muy común, deberías hacer lo posible por evitarla. Se deforman los resultados, y nunca se debe utilizar si sus datos son MNAR!

Imputación en caliente

  • Pros: Utiliza los datos existentes.
  • Contras: Las relaciones multivariables se distorsionan.
  • Maneja: MCAR y MAR Item Non-Response.

Este método es otro simple, donde los valores perdidos son reemplazados con valores aleatorios de esa columna. Aunque esto tiene la ventaja de ser simple, tenga mucho cuidado si está tratando de examinar la naturaleza de las características y cómo se relacionan entre sí, ya que las relaciones multivariables se distorsionarán.

Imputación basada en modelos (Regresión, Bayesiano, etc)

  • Pros: Mejora respecto a la imputación de media/mediana/modo.
  • Contras: Sigue distorsionando los histogramas – Subestima la varianza.
  • Maneja: MCAR y MAR Falta de respuesta de los ítems

Este método predice los valores perdidos como si fueran un objetivo, y puede utilizar diferentes modelos, como Regresión o Naive Bayes. En algunos casos, se introduce la aleatoriedad, lo que genera ligeras mejoras (es decir, la Regresión estocástica es mejor que la Regresión).

Regresión estocástica múltiple adecuada

  • Pros: La varianza es precisa – Es un método bien probado.
  • Contras: Requiere más esfuerzo – Computacionalmente intensivo.
  • Maneja: MCAR y MAR Item Non-Response.

PMSR es mucho más complejo que los otros métodos que hemos visto, pero todavía se puede implementar con relativa rapidez utilizando fancyimpute. En este caso, aprovechamos el método de imputación de la Regresión Estocástica, pero lo hacemos «múltiple». Para ello, hacemos copias de nuestro conjunto de datos, incluyendo las celdas vacías. A continuación, rellenamos cada copia con las predicciones de un único modelo de Regresión Estocástica, y por lo tanto, ¡es como insertar un pequeño histograma en cada celda vacía! Y Voila: ¡hemos mantenido nuestra varianza precisa!

Enfoque de Submodelo de Patrones

  • Pros: Maneja todos los tipos de no respuesta de artículos. – No subestima la varianza.
  • Contras: No está bien probado – Requiere mucho trabajo.
  • Maneja: Todos los tipos de no respuesta de artículos (incluyendo MNAR).

Este método es la técnica de imputación más nueva, elegante y adecuada que existe. Consiste en dividir los datos en diferentes patrones de falta, y luego ajustar un modelo a cada uno para predecir los valores. No hace ninguna suposición, es eficiente desde el punto de vista computacional (aunque puede requerir mucho trabajo) y puede manejar datos MNAR. He aquí un ejemplo de lo que entendemos por patrones de omisión:

Nótese que el patrón púrpura sólo tiene una fila, por lo que podríamos agruparlo con otros patrones de omisión pequeños para evitar el sobreajuste.

admin

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg