- Valvomaton oppiminen
- Valvomattomat oppimisalgoritmit
- Esimerkki epävalvotusta koneoppimisesta
- Miksi valvomatonta oppimista?
- Epävalvotun oppimisen tyypit
- Klusterointi
- Eksklusiivinen (osiointi)
- Agglomeratiivinen
- Overlapping
- Probabilistinen
- Klusterointityypit
- Hierarkkinen klusterointi:
- K-means Clustering
- Agglomeratiivinen klusterointi:
- Dendrogrammi:
- K- Lähimmät naapurit
- Pääkomponenttianalyysi:
- Assosiaatio
- Supervised vs. Epävalvottu koneoppiminen
- Valvomattoman koneoppimisen sovellukset
- Valvomattoman oppimisen haitat
- Yhteenveto
Valvomaton oppiminen
Valvomaton oppiminen on koneoppimistekniikka, jossa käyttäjän ei tarvitse valvoa mallia. Sen sijaan se antaa mallin työskennellä itsenäisesti löytääkseen kuvioita ja tietoa, joka oli aiemmin havaitsematta. Se käsittelee pääasiassa merkitsemätöntä dataa.
Valvomattomat oppimisalgoritmit
Valvomattomien oppimisalgoritmien avulla käyttäjät voivat suorittaa monimutkaisempia käsittelytehtäviä verrattuna valvottuun oppimiseen. Tosin valvomaton oppiminen voi olla arvaamattomampaa verrattuna muihin luonnollisiin oppimismenetelmiin. Valvomattomia oppimisalgoritmeja ovat esimerkiksi klusterointi, poikkeamien havaitseminen, neuroverkot jne.
Tässä opetusohjelmassa opit:
- Esimerkki valvomattomasta koneoppimisesta
- Miksi valvomaton oppiminen?
- Valvomattoman oppimisen tyypit
- Klusterointi
- Klusterointityypit
- Assosiaatio
- Supervised vs. Epävalvottu koneoppiminen
- Epävalvotun koneoppimisen sovellukset
- Epävalvotun oppimisen haitat
Esimerkki epävalvotusta koneoppimisesta
Katsotaanpa vauvan ja hänen perheensä koiran tapausta.
Hän tuntee ja tunnistaa tämän koiran. Muutamaa viikkoa myöhemmin perheen ystävä tuo mukanaan koiran ja yrittää leikkiä vauvan kanssa.
Vauva ei ole nähnyt tätä koiraa aiemmin. Mutta se tunnistaa monet piirteet (2 korvaa, silmät, kävely neljällä jalalla) ovat kuin hänen lemmikkikoiransa. Hän tunnistaa uuden eläimen koiraksi. Tämä on valvomatonta oppimista, jossa ei opeteta vaan opitaan datasta (tässä tapauksessa datasta, joka koskee koiraa.) Jos tämä olisi ollut valvottua oppimista, perheen ystävä olisi kertonut vauvalle, että se on koira.
Miksi valvomatonta oppimista?
Tässä ovat tärkeimmät syyt valvomattoman oppimisen käyttöön:
- Valvomaton koneoppiminen löytää datasta kaikenlaisia tuntemattomia kuvioita.
- Ylivalvomattomat menetelmät auttavat löytämään piirteitä, jotka voivat olla hyödyllisiä kategorisoinnissa.
- Se tapahtuu reaaliajassa, joten kaikki syöttötieto analysoidaan ja merkitään oppijoiden läsnä ollessa.
- Tietokoneesta on helpompi saada merkitsemätöntä dataa kuin merkattua dataa, joka vaatii manuaalista puuttumista.
Epävalvotun oppimisen tyypit
Epävalvotun oppimisen ongelmat ryhmitellään edelleen klusterointi- ja assosiaatio-ongelmiin.
Klusterointi
Klusterointi on tärkeä käsite, kun kyseessä on valvomaton oppiminen. Se käsittelee pääasiassa rakenteen tai kuvion löytämistä luokittelemattoman datan kokoelmasta. Klusterointialgoritmit käsittelevät dataa ja löytävät luonnollisia klustereita (ryhmiä), jos niitä on datassa. Voit myös muokata, kuinka monta klusteria algoritmien tulisi tunnistaa. Sen avulla voit säätää näiden ryhmien rakeisuutta.
Voit hyödyntää erilaisia klusterointitapoja:
Eksklusiivinen (osiointi)
Tässä klusterointimenetelmässä tiedot ryhmitellään siten, että yksi tieto voi kuulua vain yhteen klusteriin.
Esimerkki: K-means
Agglomeratiivinen
Tässä klusterointimenetelmässä jokainen data on klusteri. Kahden lähimmän klusterin iteratiivinen yhdistäminen vähentää klusterien määrää.
Esimerkki: Hierarkkinen klusterointi
Overlapping
Tässä tekniikassa tietojen klusterointiin käytetään sumeaa joukkoa. Jokainen piste voi kuulua kahteen tai useampaan klusteriin, joilla on eri jäsenyysasteet.
Tässä dataan liitetään sopiva jäsenyysarvo. Esimerkki: Fuzzy C-Means
Probabilistinen
Tässä tekniikassa käytetään todennäköisyysjakaumaa klustereiden luomiseen
Esimerkki: Seuraavat avainsanat
- ”miehen kenkä.”
- ”naisten kenkä.”
- ”naisten hanska.”
- ”miehen hanska.”
voidaan klusteroida kahteen luokkaan ”kenkä” ja ”hanska” tai ”mies” ja ”naiset”.
Klusterointityypit
- Hierarkkinen klusterointi
- K-means-klusterointi
- K-NN (k lähintä naapuria)
- Pääkomponenttianalyysi
- Singulaarinen arvojen hajotus
- riippumaton komponenttianalyysi
Hierarkkinen klusterointi:
Hierarkkinen klusterointi on algoritmi, joka rakentaa klustereiden hierarkian. Se lähtee liikkeelle kaikesta datasta, joka osoitetaan omaan klusteriinsa. Tässä kaksi läheistä klusteria tulee olemaan samassa klusterissa. Tämä algoritmi päättyy, kun jäljellä on vain yksi klusteri.
K-means Clustering
K tarkoittaa, että se on iteratiivinen klusterointialgoritmi, joka auttaa löytämään suurimman arvon jokaisella iteraatiolla. Aluksi valitaan haluttu määrä klustereita. Tässä klusterointimenetelmässä datapisteet on klusteroitava k ryhmään. Suurempi k tarkoittaa pienempiä ryhmiä, joiden rakeisuus on samalla tavalla suurempi. Pienempi k tarkoittaa suurempia ryhmiä, joiden rakeisuus on pienempi.
Algoritmin tuotos on ryhmä ”leimoja”. Se määrittää datapisteen johonkin k:sta ryhmästä. K-means-klusteroinnissa kukin ryhmä määritellään luomalla kullekin ryhmälle keskipiste. Keskipisteet ovat ikään kuin klusterin sydän, joka kaappaa niitä lähimpänä olevat pisteet ja lisää ne klusteriin.
K-mean-klusterointi määrittelee lisäksi kaksi alaryhmää:
- Agglomeratiivinen klusterointi
- Dendrogrammi
Agglomeratiivinen klusterointi:
Tämä K-keskiarvoisen klusteroinnin tyyppi lähtee liikkeelle kiinteästä määrästä klustereita. Se jakaa kaiken datan täsmälliseen klusterien määrään. Tämä klusterointimenetelmä ei vaadi syötteenä klusterien lukumäärää K. Agglomerointiprosessi alkaa muodostamalla jokaisesta datasta yksi klusteri.
Tämä menetelmä käyttää jotakin etäisyysmittaa, vähentää klusterien lukumäärää (yksi kussakin iteraatiossa) yhdistämisprosessilla. Lopuksi meillä on yksi suuri klusteri, joka sisältää kaikki objektit.
Dendrogrammi:
Dendrogrammi-klusterointimenetelmässä jokainen taso edustaa mahdollista klusteria. Dendrogrammin korkeus osoittaa kahden yhdistetyn klusterin välisen samankaltaisuuden tason. Mitä lähempänä prosessin pohjaa ne ovat samankaltaisempia klustereita, mikä on ryhmän löytäminen dendrogrammista, mikä ei ole luonnollista ja enimmäkseen subjektiivista.
K- Lähimmät naapurit
K- lähin naapuri on yksinkertaisin kaikista koneoppimisen luokittelijoista. Se eroaa muista koneoppimistekniikoista siinä, että se ei tuota mallia. Se on yksinkertainen algoritmi, joka tallentaa kaikki käytettävissä olevat tapaukset ja luokittelee uudet tapaukset samankaltaisuusmitan perusteella.
Se toimii hyvin, kun esimerkkien välillä on etäisyyttä. Oppimisnopeus on hidas, kun harjoitusjoukko on suuri, ja etäisyyden laskeminen ei ole triviaalia.
Pääkomponenttianalyysi:
Jos halutaan korkeampiulotteinen avaruus. Sinun on valittava tuolle avaruudelle perusta ja vain 200 tärkeintä pistettä tuosta perustasta. Tätä pohjaa kutsutaan pääkomponentiksi. Valitsemasi osajoukko muodostaa uuden avaruuden, joka on kooltaan pieni verrattuna alkuperäiseen avaruuteen. Se säilyttää mahdollisimman suuren osan datan monimutkaisuudesta.
Assosiaatio
Assosiaatiosääntöjen avulla voit luoda assosiaatioita tieto-objektien välille suurten tietokantojen sisällä. Tässä valvomattomassa tekniikassa on kyse mielenkiintoisten muuttujien välisten suhteiden löytämisestä suurissa tietokannoissa. Esimerkiksi ihmiset, jotka ostavat uuden kodin, ostavat todennäköisimmin myös uusia huonekaluja.
Muut esimerkit:
- Syöpäpotilaiden alaryhmä ryhmiteltynä heidän geeniekspressiomittaustensa perusteella
- Shoppaajien ryhmät heidän selaus- ja ostohistoriansa perusteella
- Elokuvaryhmä elokuvien katsojien antaman arvosanan perusteella
Supervised vs. Epävalvottu koneoppiminen
Parametrit | Valvottu koneoppimistekniikka | Epävalvottu koneoppimistekniikka |
Syöttötiedot | Algoritmit koulutetaan leimattujen tietojen avulla. | Algoritmeja käytetään dataa vastaan, jota ei ole merkitty |
Computational Complexity | Supervised learning on yksinkertaisempi menetelmä. | Ohjaamaton oppiminen on laskennallisesti monimutkainen |
Tarkkuus | Hyvin tarkka ja luotettava menetelmä. | Vähän tarkka ja luotettava menetelmä. |
Valvomattoman koneoppimisen sovellukset
Joitakin valvomattoman koneoppimisen tekniikoiden sovelluksia ovat:
- Klusteroinnilla jaetaan datajoukko automaattisesti ryhmiin niiden samankaltaisuuksien perusteella
- Poikkeavuuksien havaitsemisella voidaan löytää epätavallisia datapisteitä datajoukosta. Se on hyödyllinen petollisten tapahtumien löytämisessä
- Assosiaatioiden louhinta tunnistaa joukot kohteita, jotka esiintyvät usein yhdessä aineistossasi
- Latenttimuuttujamalleja käytetään laajalti datan esikäsittelyyn. Kuten datasetin piirteiden määrän vähentäminen tai datasetin purkaminen useisiin komponentteihin
Valvomattoman oppimisen haitat
- Ei voida saada tarkkaa tietoa datan lajittelusta ja tuotoksesta, koska valvomattomassa oppimisessa käytetty data on leimattu eikä sitä tunneta
- Tulosten epätarkkuus johtuu siitä, että syöttötietoa ei tunneta eikä sitä ole leimattu ihmisten toimesta etukäteen. Tämä tarkoittaa, että koneen on tehtävä tämä itse.
- Spektriluokat eivät aina vastaa informaatioluokkia.
- Käyttäjän on käytettävä aikaa tämän luokituksen mukaisten luokkien tulkintaan ja merkitsemiseen.
- Luokkien spektraaliset ominaisuudet voivat myös muuttua ajan myötä, joten sama luokkatieto ei voi säilyä, kun siirrytään kuvasta toiseen.
Yhteenveto
- Valvomaton oppiminen on koneoppimistekniikka, jossa mallia ei tarvitse valvoa.
- Valvomaton koneoppiminen auttaa löytämään kaikenlaisia tuntemattomia malleja datasta.
- Klusterointi ja assosiaatio ovat kaksi epävalvotun oppimisen tyyppiä.
- Neljä erilaista klusterointimenetelmää ovat: 1) Eksklusiivinen 2) Agglomeratiivinen 3) Päällekkäinen 4) Todennäköisyysperusteinen.
- Tärkeitä klusterointityyppejä ovat: 1) Hierarkkinen klusterointi 2) K-means-klusterointi 3) K-NN 4) Pääkomponenttianalyysi 5) Singular Value Decomposition 6) Riippumattoman komponentin analyysi.
- Assosiaatiosääntöjen avulla voidaan luoda assosiaatioita tieto-objektien välille suurten tietokantojen sisällä.
- Valvotussa oppimisessa algoritmit koulutetaan käyttäen merkittyjä tietoja, kun taas valvomattomassa oppimisessa algoritmeja käytetään sellaisia tietoja vastaan, joita ei ole merkitty.
- Anomalianhavaitseminen voi havaita tärkeitä datapisteitä tietokokonaisuuksistasi, mikä on hyödyllistä vilpillisten tapahtumien löytämisessä.
- Valvomattoman oppimisen suurimpana haittapuolena on se, että et voi saada täsmällistä tietoa datan lajittelusta.