No mundo real, a falta de dados é um problema quase inevitável. Apenas uns poucos especiais podem desviá-lo -usualmente através de grandes investimentos na coleta de dados. Esta questão é crucial porque a forma como lidamos com os dados em falta tem um impacto directo nas nossas conclusões, e também se insere na gestão do tempo. Portanto, deve ser sempre uma prioridade tratar adequadamente os dados que faltam, o que pode ser muito mais difícil do que parece. A dificuldade surge quando percebemos que nem todos os dados em falta são criados da mesma forma só porque todos parecem iguais – um espaço em branco – e que diferentes tipos de dados em falta devem ser tratados de forma diferente. Neste artigo, revemos os tipos de dados em falta, bem como métodos básicos e avançados para lidar com eles.

Tipos de Dados em Falta

Unidade de Não-Resposta refere-se a linhas inteiras de dados em falta. Um exemplo disso podem ser pessoas que optam por não preencher o censo. Aqui, não vemos necessariamente Nans nos nossos dados, mas sabemos que faltam valores porque sabemos como é a população real dos EUA.

Métodos de Imputação incluem: Ajustes de Classe de Peso.

2.Item Não Resposta

Não Resposta Item é o que a maioria das pessoas pensa como valores em falta. Isto é quando faltam células específicas de uma coluna, e a quantidade de dados em falta pode assumir qualquer percentagem da coluna (recomendo que a biblioteca que falta não visualize isto).

Métodos de Imputação Incluir (do mais simples ao mais avançado): Imputação Dedutiva, Imputação Média/Média/Modo, Imputação Hot-Deck, Imputação Baseada em Modelo, Múltipla Regressão Estocástica Adequada e a Abordagem do Submodelo Padrão.

Se escolher o método apropriado para os seus dados dependerá do tipo de item que não responde ao seu rosto. Estas são as categorias possíveis:

A.MCAR

MCAR significa Completamente Faltando no Random (Aleatório). Isto acontece quando faltam valores independentemente de todas as características, bem como do alvo (incluindo a si mesmo). Isto significa que não há diferença sistemática entre os dados ausentes e os disponíveis.

B. MAR

MAR significa “missing at Random” (Faltando ao Aleatório). Isto ocorre quando o valor em falta é dependente de uma variável, mas independente de si mesmo. Por exemplo, se estamos coletando dados de qualidade da água e temos um dia em que nosso sensor quebra, então os valores que faltam dependerão da data. No entanto, eles são completamente independentes de si mesmos (ou seja, estamos perdendo o pH porque o sensor quebrou por um dia, e não porque houve um pH que o censor é incapaz de ler). Aqui, ainda não há diferença sistemática entre os dados que temos ou não temos.

C.MNAR

MNAR significa “Missing Not at Random” (Não Aleatório). Este é o caso em que a falta de um valor depende do próprio valor. Aqui, os dados que estão disponíveis e os dados que faltam são sistematicamente diferentes. Por exemplo, em pesquisas, as pessoas com rendimentos mais baixos têm menos probabilidade de responder a perguntas sobre quanto ganham, e portanto os valores mais baixos estão faltando porque são baixos.

>

Ajustes de Classe de Pesos

>

>

>

>>

>

>>

    >>

  • Prós: Rápido – Muito útil quando a recolha de dados é desequilibrada entre classes.
  • Cons: Requer conhecimento prévio sobre a distribuição dos dados – Requer alguns dados para cada categoria em um conjunto de dados – Susceptível a outliers – Pode aumentar a variância das estimativas.
  • Manipulações: Unidade Sem resposta.

Como o nome sugere, este método toma os dados que estão disponíveis para nós e os reponde com base na verdadeira distribuição de nossa população.

Por exemplo, digamos que somos uma empresa de maquiagem e queremos decidir o que fabricar. Para simplificar, vamos assumir que todas as raparigas querem ver acabamentos brilhantes, todos os rapazes querem ver acabamentos mate, e todos os nossos clientes maricas querem ver brilhantes. Neste caso, digamos que sabemos que 40% dos nossos clientes se identificam como maricas, 10% como homens e 60% como mulheres, mas isto não corresponde à proporção de pessoas que responderam à nossa pesquisa. Talvez tivéssemos 50 meninos respondendo, 200 pessoas bichas respondendo, e 10 meninas respondendo. Isto significa que os resultados da pesquisa não refletiriam o que nossa base de clientes realmente quer, o que poderíamos corrigir transformando cada conjunto de respostas em porcentagens reais.

Como um aviso, 10 meninas não é nada para representar 60% da população, porque no mundo real nem todas responderiam a mesma coisa. Portanto, se concluíssemos que as meninas queriam brilhar e fizéssemos esses 60% dos nossos dados, mas estavam errados, estaríamos com uma hemorragia nos nossos ganhos. Lembre-se sempre que este método depende de uma boa amostragem, assim como saber a verdadeira distribuição dos dados que estamos coletando.

Imputação educativa

>

>

  • Prós: Inferência mínima – Não introduz variância ou parcialidade.
  • Cons: Codificação intensiva – Muitas vezes não é possível.
  • Pegas: Todos os tipos de dados em falta!

Este tipo de imputação é talvez o mais óbvio e menos problemático, mas muitos de nós esquecemos quando vemos grandes pedaços de dados em falta. Por vezes, podemos deduzir valores em falta a partir do resto da informação, e embora isto possa levar muito código para cada conjunto individual de deduções, é uma boa prática.

Por exemplo, se temos informações sobre animais de estimação e temos as suas datas de nascimento mas faltam algumas idades, podemos facilmente preenchê-las.

Mean/Median/Mode Imputation

  • Pros: Fácil.
  • Contras: Distorce o histograma – Subestima a variância.
  • Pegas: MCAR e MAR Item Não-resposta.

Este é o método mais comum de imputação de dados, onde você apenas substitui todos os valores em falta pela média, mediana ou modo da coluna. Embora isto seja útil se você estiver com pressa porque é fácil e rápido, muda a natureza estatística dos dados. Isto não só distorce os nossos histogramas, como também subestima a variância dos nossos dados, porque estamos a fazer com que muitos valores sejam exactamente os mesmos (quando na realidade não seriam evidentemente). Portanto, embora esta prática seja muito comum, você deve fazer o seu melhor para evitá-la. Ela irá empenar seus resultados, e você nunca deve usá-la se seus dados forem MNAR!

Imputação deHot-Deck

>

>

>>

>

  • Prós: Utiliza os dados existentes.
  • Cons: As relações multivariadas são distorcidas.
  • Pegas: MCAR e MAR Item Não Resposta.

Este método é outro simples, onde os valores em falta são substituídos por valores aleatórios daquela coluna. Embora isto tenha a vantagem de ser simples, tenha cuidado extra se você estiver tentando examinar a natureza das características e como elas se relacionam umas com as outras, já que as relações multivariadas serão distorcidas.

Imputação baseada em modelos (Regressão, Bayesian, etc)

  • Prós: Melhoria sobre Média/Mediana/Modo de Imputação.
  • Cons: Ainda distorce histogramas – Subestima a variância.
  • Pegas: MCAR e MAR Item Não Resposta

Este método prevê valores em falta como se fossem um alvo, e pode usar modelos diferentes, como Regressão ou Naive Bayes. Em alguns casos, a aleatoriedade é introduzida, o que gera ligeiras melhorias (ou seja, a Regressão Estocástica é melhor que a Regressão).

Regressão Estocástica Múltipla por Ciclo

  • Prós: A variância é precisa – É um método bem testado.
  • Cons: Requer mais esforço – Computativamente intensivo.
  • Pegas: MCAR e MAR Item Não Resposta.

PMSR é muito mais complexo do que os outros métodos que vimos, mas ainda pode ser implementado relativamente rápido usando o fancyimpute. Aqui, nós aproveitamos o método de imputação de Regressão Estocástica, mas o fazemos “várias” vezes. Para conseguir isso, fazemos cópias do nosso conjunto de dados, incluindo as células vazias. Preenchemos então cada cópia com as previsões de um modelo único de Regressão Estocástica e, portanto, é como inserir um pequeno histograma em cada célula vazia! E Voila: mantivemos nossa variância precisa!

Abordagem do Submodelo Padrão

  • Prós: Lida com todos os tipos de Item Sem Resposta! – Não subestima a variância.
  • Cons: Não foi bem testado – Trabalho-intensivo.
  • Pegas: Todos os tipos de Item Não-Resposta (incluindo MNAR)!

Este método é a mais nova, mais sofisticada e adequada técnica de imputação disponível. Consiste em dividir os dados em diferentes padrões de missingness, e depois ajustar um modelo a cada um para prever os valores. Isto não faz suposições, é computacionalmente eficiente (embora possa ser trabalhoso) e pode lidar com dados MNAR. Aqui está um exemplo do que queremos dizer com padrões de missingness:

Notem que o padrão roxo tem apenas 1 linha, por isso podemos querer aglomerá-lo com outros pequenos padrões de missingness para evitar o excesso de ajustes.

admin

Deixe uma resposta

O seu endereço de email não será publicado.

lg