No mundo real, a falta de dados é um problema quase inevitável. Apenas uns poucos especiais podem desviá-lo -usualmente através de grandes investimentos na coleta de dados. Esta questão é crucial porque a forma como lidamos com os dados em falta tem um impacto directo nas nossas conclusões, e também se insere na gestão do tempo. Portanto, deve ser sempre uma prioridade tratar adequadamente os dados que faltam, o que pode ser muito mais difícil do que parece. A dificuldade surge quando percebemos que nem todos os dados em falta são criados da mesma forma só porque todos parecem iguais – um espaço em branco – e que diferentes tipos de dados em falta devem ser tratados de forma diferente. Neste artigo, revemos os tipos de dados em falta, bem como métodos básicos e avançados para lidar com eles.
Unidade de Não-Resposta refere-se a linhas inteiras de dados em falta. Um exemplo disso podem ser pessoas que optam por não preencher o censo. Aqui, não vemos necessariamente Nans nos nossos dados, mas sabemos que faltam valores porque sabemos como é a população real dos EUA.
Métodos de Imputação incluem: Ajustes de Classe de Peso.
2.Item Não Resposta
Não Resposta Item é o que a maioria das pessoas pensa como valores em falta. Isto é quando faltam células específicas de uma coluna, e a quantidade de dados em falta pode assumir qualquer percentagem da coluna (recomendo que a biblioteca que falta não visualize isto).
Métodos de Imputação Incluir (do mais simples ao mais avançado): Imputação Dedutiva, Imputação Média/Média/Modo, Imputação Hot-Deck, Imputação Baseada em Modelo, Múltipla Regressão Estocástica Adequada e a Abordagem do Submodelo Padrão.
Se escolher o método apropriado para os seus dados dependerá do tipo de item que não responde ao seu rosto. Estas são as categorias possíveis:
A.MCAR
MCAR significa Completamente Faltando no Random (Aleatório). Isto acontece quando faltam valores independentemente de todas as características, bem como do alvo (incluindo a si mesmo). Isto significa que não há diferença sistemática entre os dados ausentes e os disponíveis.
B. MAR
MAR significa “missing at Random” (Faltando ao Aleatório). Isto ocorre quando o valor em falta é dependente de uma variável, mas independente de si mesmo. Por exemplo, se estamos coletando dados de qualidade da água e temos um dia em que nosso sensor quebra, então os valores que faltam dependerão da data. No entanto, eles são completamente independentes de si mesmos (ou seja, estamos perdendo o pH porque o sensor quebrou por um dia, e não porque houve um pH que o censor é incapaz de ler). Aqui, ainda não há diferença sistemática entre os dados que temos ou não temos.
C.MNAR
MNAR significa “Missing Not at Random” (Não Aleatório). Este é o caso em que a falta de um valor depende do próprio valor. Aqui, os dados que estão disponíveis e os dados que faltam são sistematicamente diferentes. Por exemplo, em pesquisas, as pessoas com rendimentos mais baixos têm menos probabilidade de responder a perguntas sobre quanto ganham, e portanto os valores mais baixos estão faltando porque são baixos.