Todellisessa maailmassa puuttuvat tiedot ovat lähes väistämätön ongelma. Vain muutamat harvat voivat kiertää sen – yleensä tekemällä suuria investointeja tiedonkeruuseen. Tämä ongelma on ratkaisevan tärkeä, koska tapa, jolla käsittelemme puuttuvia tietoja, vaikuttaa suoraan tuloksiimme, ja se kyntää myös ajankäytön hallinnassa. Siksi puuttuvien tietojen asianmukainen käsittely olisi aina asetettava etusijalle, mikä voi olla paljon vaikeampaa kuin miltä näyttää. Vaikeus syntyy, kun ymmärrämme, että kaikki puuttuvat tiedot eivät ole samanarvoisia vain siksi, että ne kaikki näyttävät samalta – tyhjältä tilalta – ja että erityyppisiä puuttuvia tietoja on käsiteltävä eri tavoin. Tässä artikkelissa käymme läpi puuttuvien tietojen tyypit sekä perus- ja kehittyneet menetelmät niiden käsittelemiseksi.
Yksikön puuttumattomuus viittaa kokonaisten rivien puuttuviin tietoihin. Esimerkkinä tästä voivat olla ihmiset, jotka päättävät olla täyttämättä väestölaskentaa. Tässä tapauksessa emme välttämättä näe nansseja tiedoissamme, mutta tiedämme, että arvoja puuttuu, koska tiedämme, miltä Yhdysvaltain todellinen väestö näyttää.
Ilmoitusmenetelmiä ovat mm. seuraavat:
2.Item Non-Response
Item Non-Response on se, mitä useimmat ihmiset ajattelevat puuttuvina arvoina. Tällöin sarakkeen tietyt solut puuttuvat, ja puuttuvien tietojen määrä voi olla mikä tahansa prosenttiosuus sarakkeesta (suosittelen kirjastoa missingno tämän visualisoimiseksi).
Tarkoituksenmukaisen menetelmän valitseminen aineistollesi riippuu siitä, minkä tyyppistä vastaamattomuutta kohtaat. Nämä ovat mahdolliset luokat:
A.MCAR
MCAR tarkoittaa Missing Completely at Random. Tämä tapahtuu, kun puuttuvat arvot puuttuvat itsenäisesti kaikista piirteistä sekä kohteesta (myös itsestään). Tämä tarkoittaa, että puuttuvien ja käytettävissä olevien tietojen välillä ei ole systemaattista eroa.
B. MAR
MAR tarkoittaa Missing at Random. Tämä tapahtuu, kun puuttuva arvo on riippuvainen muuttujasta, mutta riippumaton itsestään. Jos esimerkiksi keräämme vedenlaatutietoja ja meillä on päivä, jolloin anturi rikkoutuu, puuttuvat arvot riippuvat päivämäärästä. Ne ovat kuitenkin täysin riippumattomia itsestään (eli pH-arvo puuttuu, koska anturi rikkoutui päiväksi, eikä siksi, että oli pH-arvo, jota sensori ei pysty lukemaan). Tässä tapauksessa ei ole vielä mitään systemaattista eroa niiden tietojen välillä, joita meillä on tai ei ole.
C.MNAR
MNAR tarkoittaa Missing Not at Random. Tämä on tapaus, jossa arvon puuttuminen on riippuvainen itse arvosta. Tässä tapauksessa käytettävissä olevat tiedot ja puuttuvat tiedot ovat systemaattisesti erilaisia. Esimerkiksi kyselytutkimuksissa ihmiset, joilla on pienemmät tulot, vastaavat harvemmin kysymyksiin siitä, kuinka paljon he tienaavat, ja siksi pienemmät arvot puuttuvat, koska ne ovat pieniä.