Todellisessa maailmassa puuttuvat tiedot ovat lähes väistämätön ongelma. Vain muutamat harvat voivat kiertää sen – yleensä tekemällä suuria investointeja tiedonkeruuseen. Tämä ongelma on ratkaisevan tärkeä, koska tapa, jolla käsittelemme puuttuvia tietoja, vaikuttaa suoraan tuloksiimme, ja se kyntää myös ajankäytön hallinnassa. Siksi puuttuvien tietojen asianmukainen käsittely olisi aina asetettava etusijalle, mikä voi olla paljon vaikeampaa kuin miltä näyttää. Vaikeus syntyy, kun ymmärrämme, että kaikki puuttuvat tiedot eivät ole samanarvoisia vain siksi, että ne kaikki näyttävät samalta – tyhjältä tilalta – ja että erityyppisiä puuttuvia tietoja on käsiteltävä eri tavoin. Tässä artikkelissa käymme läpi puuttuvien tietojen tyypit sekä perus- ja kehittyneet menetelmät niiden käsittelemiseksi.

Puuttuvien tietojen tyypit

Yksikön puuttumattomuus viittaa kokonaisten rivien puuttuviin tietoihin. Esimerkkinä tästä voivat olla ihmiset, jotka päättävät olla täyttämättä väestölaskentaa. Tässä tapauksessa emme välttämättä näe nansseja tiedoissamme, mutta tiedämme, että arvoja puuttuu, koska tiedämme, miltä Yhdysvaltain todellinen väestö näyttää.

Ilmoitusmenetelmiä ovat mm. seuraavat:

2.Item Non-Response

Item Non-Response on se, mitä useimmat ihmiset ajattelevat puuttuvina arvoina. Tällöin sarakkeen tietyt solut puuttuvat, ja puuttuvien tietojen määrä voi olla mikä tahansa prosenttiosuus sarakkeesta (suosittelen kirjastoa missingno tämän visualisoimiseksi).

Imputation Methods Include (yksinkertaisimmasta edistyneimpään): Deductive Imputation, Mean/Median/Mode Imputation, Hot-Deck Imputation, Model-Based Imputation, Multiple Proper Stochastic Regression ja Pattern Submodel Approach.

Tarkoituksenmukaisen menetelmän valitseminen aineistollesi riippuu siitä, minkä tyyppistä vastaamattomuutta kohtaat. Nämä ovat mahdolliset luokat:

A.MCAR

MCAR tarkoittaa Missing Completely at Random. Tämä tapahtuu, kun puuttuvat arvot puuttuvat itsenäisesti kaikista piirteistä sekä kohteesta (myös itsestään). Tämä tarkoittaa, että puuttuvien ja käytettävissä olevien tietojen välillä ei ole systemaattista eroa.

B. MAR

MAR tarkoittaa Missing at Random. Tämä tapahtuu, kun puuttuva arvo on riippuvainen muuttujasta, mutta riippumaton itsestään. Jos esimerkiksi keräämme vedenlaatutietoja ja meillä on päivä, jolloin anturi rikkoutuu, puuttuvat arvot riippuvat päivämäärästä. Ne ovat kuitenkin täysin riippumattomia itsestään (eli pH-arvo puuttuu, koska anturi rikkoutui päiväksi, eikä siksi, että oli pH-arvo, jota sensori ei pysty lukemaan). Tässä tapauksessa ei ole vielä mitään systemaattista eroa niiden tietojen välillä, joita meillä on tai ei ole.

C.MNAR

MNAR tarkoittaa Missing Not at Random. Tämä on tapaus, jossa arvon puuttuminen on riippuvainen itse arvosta. Tässä tapauksessa käytettävissä olevat tiedot ja puuttuvat tiedot ovat systemaattisesti erilaisia. Esimerkiksi kyselytutkimuksissa ihmiset, joilla on pienemmät tulot, vastaavat harvemmin kysymyksiin siitä, kuinka paljon he tienaavat, ja siksi pienemmät arvot puuttuvat, koska ne ovat pieniä.

Painoluokkakorjaukset

>

  • Pros: Nopea – Erittäin hyödyllinen, kun tiedonkeruu on epätasapainossa luokkien välillä.
  • Miinukset: Vaatii ennakkotietoa aineiston jakaumasta – Vaatii jonkin verran tietoja jokaisesta aineiston luokasta – Altis poikkeaville arvoille – Voi kasvattaa estimaattien varianssia.
  • Käsittelee: Unit Non-Response.

Kuten nimestäkin voi päätellä, tämä menetelmä ottaa käytettävissämme olevat tiedot ja painottaa ne uudelleen perusjoukkomme todellisen jakauman perusteella.

Esitettäköön esimerkiksi, että olemme meikkifirma ja haluamme päättää, mitä valmistamme. Oletetaan yksinkertaisuuden vuoksi, että kaikki tytöt haluavat nähdä hohtavia sävyjä, kaikki pojat haluavat nähdä mattapintaisia sävyjä ja kaikki queer-puvustajamme haluavat nähdä glitteriä. Tässä tapauksessa oletetaan, että tiedämme, että 40 prosenttia asiakkaistamme on homoja, 10 prosenttia miehiä ja 60 prosenttia naisia, mutta tämä ei vastaa kyselyyn vastanneiden henkilöiden osuutta. Ehkä 50 poikaa vastasi, 200 queer-ihmistä vastasi ja 10 tyttöä vastasi. Tämä tarkoittaa, että kyselyn tulokset eivät heijastaisi sitä, mitä asiakaskuntamme todella haluaa eniten, minkä voisimme korjata muuttamalla kunkin vastausjoukon todellisiksi prosenttiosuuksiksi.

Varoituksena mainittakoon, että 10 tyttöä ei ole mitään edustamaan 60 prosenttia väestöstä, koska todellisessa maailmassa he kaikki eivät vastaisi samaan asiaan. Jos siis päättelisimme, että tytöt halusivat shimmeriä ja tekisimme tästä 60 % aineistostamme, mutta olisimmekin väärässä, verottaisimme tulojamme. Muista aina, että tämä menetelmä riippuu hyvästä otannasta sekä siitä, että tiedämme keräämämme datan todellisen jakauman.

Deduktiivinen imputaatio

  • Plussaa: Minimaalinen päättely – Ei tuo varianssia tai harhaa.
  • Miinukset: Koodausintensiivinen – Ei useinkaan mahdollista.
  • Käsittelee: Kaikenlaiset puuttuvat tiedot!

Tämä imputointityyppi on ehkä ilmeisin ja vähiten ongelmallinen, mutta monet meistä unohtavat sen, kun näemme suuria datapaloja puuttuvan. Joskus voimme päätellä puuttuvat arvot muusta tiedosta, ja vaikka tämä voi vaatia paljon koodausta jokaista yksittäistä päätelmäsarjaa varten, se on hyvä käytäntö.

Jos meillä on esimerkiksi tietoja lemmikkieläimistä ja meillä on lemmikkieläinten syntymäpäivät, mutta jotkut iät puuttuvat, voimme helposti täyttää ne.

Keskiarvo/Mediaani/Moodi-imputointi

  • Plussaa: Helppo.
  • Miinukset: Vääristää histogrammia – Aliarvioi varianssia.
  • Käsittelee: MCAR ja MAR Item Non-Response.

Tämä on yleisin tietojen imputointimenetelmä, jossa kaikki puuttuvat arvot korvataan vain sarakkeen keskiarvolla, mediaanilla tai moodilla. Vaikka tämä on hyödyllistä, jos sinulla on kiire, koska se on helppoa ja nopeaa, se muuttaa tietojen tilastollista luonnetta. Sen lisäksi, että tämä vääristää histogrammiamme, se myös aliarvioi aineistomme varianssin, koska teemme lukuisista arvoista täsmälleen samanlaisia (vaikka todellisuudessa ne eivät ilmeisesti ole). Siksi, vaikka tämä käytäntö on hyvin yleinen, sinun pitäisi tehdä parhaasi sen välttämiseksi. Se vääristää tuloksiasi, eikä sitä pitäisi koskaan käyttää, jos aineistosi on MNAR!

Hot-Deck Imputation

  • Plussaa: Käyttää olemassa olevia tietoja.
  • Miinukset: Monimuuttujasuhteet vääristyvät.
  • Käsittelee: MCAR ja MAR Item Non-Response.

Tämäkin menetelmä on yksinkertainen, jossa puuttuvat arvot korvataan satunnaisilla arvoilla kyseisestä sarakkeesta. Vaikka tämän etuna on yksinkertaisuus, ole erityisen varovainen, jos yrität tutkia ominaisuuksien luonnetta ja niiden suhdetta toisiinsa, sillä monimuuttujien väliset suhteet vääristyvät.

Mallipohjainen imputointi (regressio, bayesiläinen jne.)

  • Plussaa:
    • Plussat: Parempi kuin keskiarvo/keskiarvo/moodi-imputointi.
    • Miinukset: Vääristää edelleen histogrammeja – Aliarvioi varianssin.
    • Käsittelee: MCAR ja MAR Item Non-Response

    Tämä menetelmä ennustaa puuttuvat arvot ikään kuin ne olisivat kohde, ja se voi käyttää erilaisia malleja, kuten Regression tai Naive Bayes. Joissakin tapauksissa otetaan käyttöön satunnaisuutta, joka tuottaa pieniä parannuksia (esim. stokastinen regressio on parempi kuin regressio).

    Proper Multiple Stochastic Regression

    • Pros: Varianssi on tarkka – Se on hyvin testattu menetelmä.
    • Miinukset: Vaatii enemmän työtä – Laskennallisesti intensiivinen.
    • Käsittelee: MCAR ja MAR Item Non-Response.

    PMSR on paljon monimutkaisempi kuin muut tarkastelemamme menetelmät, mutta se voidaan silti toteuttaa suhteellisen nopeasti fancyimputen avulla. Tässä hyödynnämme Stochastic Regression -imputointimenetelmää, mutta teemme sen ”useita” kertoja. Tätä varten teemme kopioita aineistostamme, mukaan lukien tyhjät solut. Sitten täytämme jokaisen kopion ainutlaatuisen Stochastic Regression -mallin ennusteilla, ja näin ollen se on kuin lisäisi pienen histogrammin jokaiseen tyhjään soluun! Ja Voila: olemme pitäneet varianssimme tarkkana!

    Pattern Submodel Approach

    • Pros: Käsittelee kaikentyyppisiä Item Non-Response! – Se ei aliarvioi varianssia.
    • Miinukset: Ei ole hyvin testattu – Työläs.
    • Käsittelee mm: Kaikki Item Non-Response -tyypit (mukaan lukien MNAR)!

    Tämä menetelmä on uusin, hienoin ja sopivin saatavilla oleva imputointitekniikka. Se koostuu datan jakamisesta erilaisiin puuttumismalleihin ja sen jälkeen mallin sovittamisesta kuhunkin, jotta arvot voidaan ennustaa. Tämä ei tee oletuksia, se on laskennallisesti tehokas (vaikkakin se saattaa olla työläs) ja se voi käsitellä MNAR-dataa. Tässä on esimerkki siitä, mitä tarkoitamme missingness-kuvioilla:

Huomaa, että violetilla kuviolla on vain yksi rivi, joten saatamme haluta ryhmittää sen muiden pienten missingness-kuvioiden joukkoon ylisovittamisen välttämiseksi.

admin

Vastaa

Sähköpostiosoitettasi ei julkaista.

lg