Valvomaton koneoppiminen:

Valvomaton oppiminen

Valvomaton oppiminen on koneoppimistekniikka, jossa käyttäjän ei tarvitse valvoa mallia. Sen sijaan se antaa mallin työskennellä itsenäisesti löytääkseen kuvioita ja tietoa, joka oli aiemmin havaitsematta. Se käsittelee pääasiassa merkitsemätöntä dataa.

Valvomattomat oppimisalgoritmit

Valvomattomien oppimisalgoritmien avulla käyttäjät voivat suorittaa monimutkaisempia käsittelytehtäviä verrattuna valvottuun oppimiseen. Tosin valvomaton oppiminen voi olla arvaamattomampaa verrattuna muihin luonnollisiin oppimismenetelmiin. Valvomattomia oppimisalgoritmeja ovat esimerkiksi klusterointi, poikkeamien havaitseminen, neuroverkot jne.

Tässä opetusohjelmassa opit:

Esimerkki valvomattomasta koneoppimisesta
Miksi valvomaton oppiminen?
Valvomattoman oppimisen tyypit
Klusterointi
Klusterointityypit
Assosiaatio
Supervised vs. Epävalvottu koneoppiminen
Epävalvotun koneoppimisen sovellukset
Epävalvotun oppimisen haitat

Esimerkki epävalvotusta koneoppimisesta

Katsotaanpa vauvan ja hänen perheensä koiran tapausta.

Hän tuntee ja tunnistaa tämän koiran. Muutamaa viikkoa myöhemmin perheen ystävä tuo mukanaan koiran ja yrittää leikkiä vauvan kanssa.

Vauva ei ole nähnyt tätä koiraa aiemmin. Mutta se tunnistaa monet piirteet (2 korvaa, silmät, kävely neljällä jalalla) ovat kuin hänen lemmikkikoiransa. Hän tunnistaa uuden eläimen koiraksi. Tämä on valvomatonta oppimista, jossa ei opeteta vaan opitaan datasta (tässä tapauksessa datasta, joka koskee koiraa.) Jos tämä olisi ollut valvottua oppimista, perheen ystävä olisi kertonut vauvalle, että se on koira.

Miksi valvomatonta oppimista?

Tässä ovat tärkeimmät syyt valvomattoman oppimisen käyttöön:

Valvomaton koneoppiminen löytää datasta kaikenlaisia tuntemattomia kuvioita.
Ylivalvomattomat menetelmät auttavat löytämään piirteitä, jotka voivat olla hyödyllisiä kategorisoinnissa.
Se tapahtuu reaaliajassa, joten kaikki syöttötieto analysoidaan ja merkitään oppijoiden läsnä ollessa.
Tietokoneesta on helpompi saada merkitsemätöntä dataa kuin merkattua dataa, joka vaatii manuaalista puuttumista.

Epävalvotun oppimisen tyypit

Epävalvotun oppimisen ongelmat ryhmitellään edelleen klusterointi- ja assosiaatio-ongelmiin.

Klusterointi

Klusterointi on tärkeä käsite, kun kyseessä on valvomaton oppiminen. Se käsittelee pääasiassa rakenteen tai kuvion löytämistä luokittelemattoman datan kokoelmasta. Klusterointialgoritmit käsittelevät dataa ja löytävät luonnollisia klustereita (ryhmiä), jos niitä on datassa. Voit myös muokata, kuinka monta klusteria algoritmien tulisi tunnistaa. Sen avulla voit säätää näiden ryhmien rakeisuutta.

Voit hyödyntää erilaisia klusterointitapoja:

Eksklusiivinen (osiointi)

Tässä klusterointimenetelmässä tiedot ryhmitellään siten, että yksi tieto voi kuulua vain yhteen klusteriin.

Esimerkki: K-means

Agglomeratiivinen

Tässä klusterointimenetelmässä jokainen data on klusteri. Kahden lähimmän klusterin iteratiivinen yhdistäminen vähentää klusterien määrää.

Esimerkki: Hierarkkinen klusterointi

Overlapping

Tässä tekniikassa tietojen klusterointiin käytetään sumeaa joukkoa. Jokainen piste voi kuulua kahteen tai useampaan klusteriin, joilla on eri jäsenyysasteet.

Tässä dataan liitetään sopiva jäsenyysarvo. Esimerkki: Fuzzy C-Means

Probabilistinen

Tässä tekniikassa käytetään todennäköisyysjakaumaa klustereiden luomiseen

Esimerkki: Seuraavat avainsanat

”miehen kenkä.”
”naisten kenkä.”
”naisten hanska.”
”miehen hanska.”

voidaan klusteroida kahteen luokkaan ”kenkä” ja ”hanska” tai ”mies” ja ”naiset”.

Klusterointityypit

Hierarkkinen klusterointi
K-means-klusterointi
K-NN (k lähintä naapuria)
Pääkomponenttianalyysi
Singulaarinen arvojen hajotus
riippumaton komponenttianalyysi

Hierarkkinen klusterointi:

Hierarkkinen klusterointi on algoritmi, joka rakentaa klustereiden hierarkian. Se lähtee liikkeelle kaikesta datasta, joka osoitetaan omaan klusteriinsa. Tässä kaksi läheistä klusteria tulee olemaan samassa klusterissa. Tämä algoritmi päättyy, kun jäljellä on vain yksi klusteri.

K-means Clustering

K tarkoittaa, että se on iteratiivinen klusterointialgoritmi, joka auttaa löytämään suurimman arvon jokaisella iteraatiolla. Aluksi valitaan haluttu määrä klustereita. Tässä klusterointimenetelmässä datapisteet on klusteroitava k ryhmään. Suurempi k tarkoittaa pienempiä ryhmiä, joiden rakeisuus on samalla tavalla suurempi. Pienempi k tarkoittaa suurempia ryhmiä, joiden rakeisuus on pienempi.

Algoritmin tuotos on ryhmä ”leimoja”. Se määrittää datapisteen johonkin k:sta ryhmästä. K-means-klusteroinnissa kukin ryhmä määritellään luomalla kullekin ryhmälle keskipiste. Keskipisteet ovat ikään kuin klusterin sydän, joka kaappaa niitä lähimpänä olevat pisteet ja lisää ne klusteriin.

K-mean-klusterointi määrittelee lisäksi kaksi alaryhmää:

Agglomeratiivinen klusterointi
Dendrogrammi

Agglomeratiivinen klusterointi:

Tämä K-keskiarvoisen klusteroinnin tyyppi lähtee liikkeelle kiinteästä määrästä klustereita. Se jakaa kaiken datan täsmälliseen klusterien määrään. Tämä klusterointimenetelmä ei vaadi syötteenä klusterien lukumäärää K. Agglomerointiprosessi alkaa muodostamalla jokaisesta datasta yksi klusteri.

Tämä menetelmä käyttää jotakin etäisyysmittaa, vähentää klusterien lukumäärää (yksi kussakin iteraatiossa) yhdistämisprosessilla. Lopuksi meillä on yksi suuri klusteri, joka sisältää kaikki objektit.

Dendrogrammi:

Dendrogrammi-klusterointimenetelmässä jokainen taso edustaa mahdollista klusteria. Dendrogrammin korkeus osoittaa kahden yhdistetyn klusterin välisen samankaltaisuuden tason. Mitä lähempänä prosessin pohjaa ne ovat samankaltaisempia klustereita, mikä on ryhmän löytäminen dendrogrammista, mikä ei ole luonnollista ja enimmäkseen subjektiivista.

K- Lähimmät naapurit

K- lähin naapuri on yksinkertaisin kaikista koneoppimisen luokittelijoista. Se eroaa muista koneoppimistekniikoista siinä, että se ei tuota mallia. Se on yksinkertainen algoritmi, joka tallentaa kaikki käytettävissä olevat tapaukset ja luokittelee uudet tapaukset samankaltaisuusmitan perusteella.

Se toimii hyvin, kun esimerkkien välillä on etäisyyttä. Oppimisnopeus on hidas, kun harjoitusjoukko on suuri, ja etäisyyden laskeminen ei ole triviaalia.

Pääkomponenttianalyysi:

Jos halutaan korkeampiulotteinen avaruus. Sinun on valittava tuolle avaruudelle perusta ja vain 200 tärkeintä pistettä tuosta perustasta. Tätä pohjaa kutsutaan pääkomponentiksi. Valitsemasi osajoukko muodostaa uuden avaruuden, joka on kooltaan pieni verrattuna alkuperäiseen avaruuteen. Se säilyttää mahdollisimman suuren osan datan monimutkaisuudesta.

Assosiaatio

Assosiaatiosääntöjen avulla voit luoda assosiaatioita tieto-objektien välille suurten tietokantojen sisällä. Tässä valvomattomassa tekniikassa on kyse mielenkiintoisten muuttujien välisten suhteiden löytämisestä suurissa tietokannoissa. Esimerkiksi ihmiset, jotka ostavat uuden kodin, ostavat todennäköisimmin myös uusia huonekaluja.

Muut esimerkit:

Syöpäpotilaiden alaryhmä ryhmiteltynä heidän geeniekspressiomittaustensa perusteella
Shoppaajien ryhmät heidän selaus- ja ostohistoriansa perusteella
Elokuvaryhmä elokuvien katsojien antaman arvosanan perusteella

Supervised vs. Epävalvottu koneoppiminen

Parametrit	Valvottu koneoppimistekniikka	Epävalvottu koneoppimistekniikka
Syöttötiedot	Algoritmit koulutetaan leimattujen tietojen avulla.	Algoritmeja käytetään dataa vastaan, jota ei ole merkitty
Computational Complexity	Supervised learning on yksinkertaisempi menetelmä.	Ohjaamaton oppiminen on laskennallisesti monimutkainen
Tarkkuus	Hyvin tarkka ja luotettava menetelmä.	Vähän tarkka ja luotettava menetelmä.

Valvomattoman koneoppimisen sovellukset

Joitakin valvomattoman koneoppimisen tekniikoiden sovelluksia ovat:

Klusteroinnilla jaetaan datajoukko automaattisesti ryhmiin niiden samankaltaisuuksien perusteella
Poikkeavuuksien havaitsemisella voidaan löytää epätavallisia datapisteitä datajoukosta. Se on hyödyllinen petollisten tapahtumien löytämisessä
Assosiaatioiden louhinta tunnistaa joukot kohteita, jotka esiintyvät usein yhdessä aineistossasi
Latenttimuuttujamalleja käytetään laajalti datan esikäsittelyyn. Kuten datasetin piirteiden määrän vähentäminen tai datasetin purkaminen useisiin komponentteihin

Valvomattoman oppimisen haitat

Ei voida saada tarkkaa tietoa datan lajittelusta ja tuotoksesta, koska valvomattomassa oppimisessa käytetty data on leimattu eikä sitä tunneta
Tulosten epätarkkuus johtuu siitä, että syöttötietoa ei tunneta eikä sitä ole leimattu ihmisten toimesta etukäteen. Tämä tarkoittaa, että koneen on tehtävä tämä itse.
Spektriluokat eivät aina vastaa informaatioluokkia.
Käyttäjän on käytettävä aikaa tämän luokituksen mukaisten luokkien tulkintaan ja merkitsemiseen.
Luokkien spektraaliset ominaisuudet voivat myös muuttua ajan myötä, joten sama luokkatieto ei voi säilyä, kun siirrytään kuvasta toiseen.

Yhteenveto

Valvomaton oppiminen on koneoppimistekniikka, jossa mallia ei tarvitse valvoa.
Valvomaton koneoppiminen auttaa löytämään kaikenlaisia tuntemattomia malleja datasta.
Klusterointi ja assosiaatio ovat kaksi epävalvotun oppimisen tyyppiä.
Neljä erilaista klusterointimenetelmää ovat: 1) Eksklusiivinen 2) Agglomeratiivinen 3) Päällekkäinen 4) Todennäköisyysperusteinen.
Tärkeitä klusterointityyppejä ovat: 1) Hierarkkinen klusterointi 2) K-means-klusterointi 3) K-NN 4) Pääkomponenttianalyysi 5) Singular Value Decomposition 6) Riippumattoman komponentin analyysi.
Assosiaatiosääntöjen avulla voidaan luoda assosiaatioita tieto-objektien välille suurten tietokantojen sisällä.
Valvotussa oppimisessa algoritmit koulutetaan käyttäen merkittyjä tietoja, kun taas valvomattomassa oppimisessa algoritmeja käytetään sellaisia tietoja vastaan, joita ei ole merkitty.
Anomalianhavaitseminen voi havaita tärkeitä datapisteitä tietokokonaisuuksistasi, mikä on hyödyllistä vilpillisten tapahtumien löytämisessä.
Valvomattoman oppimisen suurimpana haittapuolena on se, että et voi saada täsmällistä tietoa datan lajittelusta.

Wzrost