- Felügyelet nélküli tanulás
- Felügyelet nélküli tanulási algoritmusok
- Példa a felügyelet nélküli gépi tanulásra
- Miért a felügyelet nélküli tanulás?
- A felügyelet nélküli tanulás típusai
- Klaszterezés
- Kizárólagos (particionálás)
- Agglomeratív
- Overlapping
- Probabilisztikus
- Klaszterezési típusok
- Hierarchikus klaszterezés:
- K-means klaszterezés
- Agglomeratív klaszterezés:
- Dendrogram:
- K- legközelebbi szomszédok
- Fő komponensek elemzése:
- Asszociáció
- Supervised vs. Unupervised machine learning
- A felügyelet nélküli gépi tanulás alkalmazásai
- A felügyelet nélküli tanulás hátrányai
- Összefoglaló
Felügyelet nélküli tanulás
A felügyelet nélküli tanulás olyan gépi tanulási technika, amelyben a felhasználóknak nem kell felügyelniük a modellt. Ehelyett lehetővé teszi, hogy a modell magától működjön, és olyan mintákat és információkat fedezzen fel, amelyeket korábban nem fedezett fel. Elsősorban a címkézetlen adatokkal foglalkozik.
Felügyelet nélküli tanulási algoritmusok
A felügyelet nélküli tanulási algoritmusok a felügyelt tanuláshoz képest összetettebb feldolgozási feladatok elvégzését teszik lehetővé a felhasználók számára. Bár a felügyelet nélküli tanulás kiszámíthatatlanabb lehet más természetes tanulási módszerekhez képest. A felügyelet nélküli tanulási algoritmusok közé tartozik a klaszterezés, az anomália-felismerés, a neurális hálózatok stb.
Ezzel a tananyaggal megtanulhatja:
- Példa a felügyelet nélküli gépi tanulásra
- Miért a felügyelet nélküli tanulás?
- A felügyelet nélküli tanulás típusai
- Klaszterezés
- Klaszterezés típusai
- Asszociáció
- Felügyelt vs. Felügyelet nélküli gépi tanulás
- A felügyelet nélküli gépi tanulás alkalmazásai
- A felügyelet nélküli tanulás hátrányai
Példa a felügyelet nélküli gépi tanulásra
Legyen, vegyük egy baba és a család kutyájának esetét.
Ezt a kutyát ismeri és azonosítja. Néhány héttel később egy családi barát hoz magával egy kutyát, és megpróbál játszani a babával.
A baba korábban nem látta ezt a kutyát. De felismeri, hogy sok tulajdonsága (2 fül, szem, 4 lábon járás) olyan, mint az ő házikutyája. Az új állatot kutyaként azonosítja. Ez felügyelet nélküli tanulás, ahol nem tanítják, hanem az adatokból (jelen esetben egy kutyáról szóló adatokból.) Ha ez felügyelt tanulás lett volna, a család barátja mondta volna a babának, hogy ez egy kutya.
Miért a felügyelet nélküli tanulás?
Itt vannak a felügyelet nélküli tanulás használatának elsődleges okai:
- A felügyelet nélküli gépi tanulás mindenféle ismeretlen mintát megtalál az adatokban.
- A felügyelet nélküli módszerek segítenek megtalálni azokat a jellemzőket, amelyek hasznosak lehetnek a kategorizáláshoz.
- Ez valós időben zajlik, így az összes bemeneti adatot a tanulók jelenlétében kell elemezni és címkézni.
- A számítógépből könnyebb címkézetlen adatokat szerezni, mint címkézett adatokat, amelyek kézi beavatkozást igényelnek.
A felügyelet nélküli tanulás típusai
A felügyelet nélküli tanulási problémák további csoportosítása klaszterezési és asszociációs problémákra.
Klaszterezés
A klaszterezés fontos fogalom, amikor a felügyelet nélküli tanulásról van szó. Elsősorban azzal foglalkozik, hogy kategorizálatlan adatok gyűjteményében struktúrát vagy mintát találjon. A klaszterező algoritmusok feldolgozzák az adatokat, és természetes klasztereket(csoportokat) találnak, ha léteznek az adatokban. Azt is módosíthatja, hogy az algoritmusoknak hány klasztert kell azonosítaniuk. Lehetővé teszi, hogy beállítsa ezeknek a csoportoknak a szemcsézettségét.
A klaszterezésnek különböző típusai vannak, amelyeket felhasználhat:
Kizárólagos (particionálás)
Ez a klaszterezési módszer az adatokat úgy csoportosítja, hogy egy adat csak egy klaszterhez tartozhat.
Példa: K-means
Agglomeratív
Ebben a klaszterezési technikában minden adat egy klaszter. A két legközelebbi klaszter közötti iteratív egyesítés csökkenti a klaszterek számát.
Példa: Hierarchikus klaszterezés
Overlapping
Ebben a technikában fuzzy halmazokat használnak az adatok klaszterezésére. Minden pont két vagy több klaszterhez tartozhat, külön tagsági fokozattal.
Itt az adatokat egy megfelelő tagsági értékkel társítják. Példa: Fuzzy C-Means
Probabilisztikus
Ez a technika valószínűségi eloszlást használ a klaszterek létrehozásához
Példa: A következő kulcsszavak
- “férfi cipő.”
- “női cipő.”
- “női kesztyű.”
- “férfi kesztyű.”
klaszterezhetőek két kategóriába: “cipő” és “kesztyű” vagy “férfi” és “nő”.
Klaszterezési típusok
- Hierarchikus klaszterezés
- K-means klaszterezés
- K-NN (k legközelebbi szomszéd)
- Principális komponenselemzés
- Singular Value Decomposition
- Independent Component Analysis
Hierarchikus klaszterezés:
A hierarchikus klaszterezés egy olyan algoritmus, amely klaszterek hierarchiáját építi fel. Az összes adatból indul ki, amelyeket egy saját klaszterhez rendel. Itt két közeli klaszter ugyanabba a klaszterbe kerül. Ez az algoritmus akkor ér véget, amikor már csak egy klaszter marad.
K-means klaszterezés
K azt jelenti, hogy ez egy iteratív klaszterező algoritmus, amely minden iterációnál segít megtalálni a legmagasabb értéket. Kezdetben kiválasztjuk a kívánt számú klasztert. Ebben a klaszterezési módszerben az adatpontokat k csoportba kell klaszterezni. A nagyobb k kisebb csoportokat jelent, amelyek ugyanúgy nagyobb szemcseméretűek. Egy kisebb k nagyobb csoportokat jelent kisebb szemcsézettséggel.
Az algoritmus kimenete a “címkék” csoportja. Az adatpontot a k csoport valamelyikéhez rendeli. A k-means klaszterezésben minden csoportot úgy határozunk meg, hogy minden csoporthoz létrehozunk egy centroidot. A centroidok olyanok, mint a klaszter szíve, amely felfogja a hozzá legközelebb eső pontokat, és hozzáadja őket a klaszterhez.
A K-közép klaszterezés továbbá két alcsoportot határoz meg:
- Agglomeratív klaszterezés
- Dendrogram
Agglomeratív klaszterezés:
A K-közép klaszterezés ezen típusa rögzített számú klaszterrel indul. Minden adatot pontosan a klaszterek számába sorol. Ez a klaszterezési módszer nem igényli bemenetként a K klaszterek számát. Az agglomerációs folyamat úgy kezdődik, hogy minden adatot egyetlen klaszterként képez.
Ez a módszer valamilyen távolságmértéket használ, a klaszterek számát (minden iterációban egyet) összevonási eljárással csökkenti. Végül egyetlen nagy klaszterünk van, amely az összes objektumot tartalmazza.
Dendrogram:
A dendrogram klaszterezési módszerben minden szint egy lehetséges klasztert képvisel. A dendrogram magassága mutatja a hasonlóság szintjét két csatlakozó klaszter között. Minél közelebb vannak a folyamat aljához, annál hasonlóbbak a klaszterek, ami a csoport megtalálása a dendrogramból, ami nem természetes és többnyire szubjektív.
K- legközelebbi szomszédok
K- legközelebbi szomszédok a legegyszerűbb a gépi tanulás osztályozói közül. Abban különbözik a többi gépi tanulási technikától, hogy nem hoz létre modellt. Ez egy egyszerű algoritmus, amely az összes rendelkezésre álló esetet tárolja, és az új eseteket egy hasonlósági mérték alapján osztályozza.
Ez nagyon jól működik, ha a példák között távolság van. A tanulási sebesség lassú, ha a gyakorlóhalmaz nagy, és a távolságszámítás nem triviális.
Fő komponensek elemzése:
Ha magasabb dimenziós teret szeretnénk. Ki kell választania egy bázist ehhez a térhez, és csak a 200 legfontosabb pontszámot kell kiválasztania ebből a bázisból. Ezt az alapot nevezzük főkomponensnek. A kiválasztott részhalmaz egy új teret alkot, amely az eredeti térhez képest kis méretű. Az adatok komplexitásából a lehető legtöbbet megtartja.
Asszociáció
Az asszociációs szabályok lehetővé teszik az adatobjektumok közötti asszociációk létrehozását nagy adatbázisokon belül. Ez a felügyelet nélküli technika a nagy adatbázisokban lévő változók közötti érdekes kapcsolatok felfedezésére szolgál. Például azok az emberek, akik új lakást vásárolnak, nagy valószínűséggel új bútorokat is vásárolnak.
Más példák:
- Rákbetegek alcsoportja a génexpressziós méréseik alapján csoportosítva
- Vásárlók csoportjai a böngészési és vásárlási előzmények alapján
- Filmek csoportja a filmnézők által adott értékelés alapján
Supervised vs. Unupervised machine learning
Paraméterek | Supervised machine learning technique | Unsupervised machine learning technique |
Input Data | Az algoritmusok képzése címkézett adatok felhasználásával történik. | Az algoritmusokat olyan adatokkal szemben használják, amelyek nem címkézettek |
Computational Complexity | A szupervizált tanulás egyszerűbb módszer. | A felügyelet nélküli tanulás számítási szempontból bonyolult |
Pontosság | Nagyon pontos és megbízható módszer. | Legkevésbé pontos és megbízható módszer. |
A felügyelet nélküli gépi tanulás alkalmazásai
A felügyelet nélküli gépi tanulási technikák néhány alkalmazása:
- A klaszterezés automatikusan csoportokra osztja az adathalmazt a hasonlóságok alapján
- Az anomália detektálás felfedezheti a szokatlan adatpontokat az adathalmazban. Hasznos a csalárd tranzakciók megtalálására
- Az asszociációs bányászat azonosítja az adatállományban gyakran együtt előforduló elemek halmazait
- A latens változó modelleket széles körben használják az adatok előfeldolgozására. Mint például a jellemzők számának csökkentése az adathalmazban vagy az adathalmaz több összetevőre bontása
A felügyelet nélküli tanulás hátrányai
- Nem kaphat pontos információt az adatok rendezésére vonatkozóan, és a kimenet, mivel a felügyelet nélküli tanulásban használt adatok címkézettek és nem ismertek
- Az eredmények kisebb pontossága azért van, mert a bemeneti adatokat az emberek nem ismerik és nem címkézik előre. Ez azt jelenti, hogy a gépnek magának kell ezt megtennie.
- A spektrális osztályok nem mindig felelnek meg az információs osztályoknak.
- A felhasználónak időt kell fordítania az adott osztályozást követő osztályok értelmezésére és címkézésére.
- Az osztályok spektrális tulajdonságai idővel is változhatnak, így nem lehet ugyanaz az osztályinformáció, miközben egyik képről a másikra lépünk.
Összefoglaló
- A felügyelet nélküli tanulás olyan gépi tanulási technika, ahol nincs szükség a modell felügyeletére.
- A felügyelet nélküli gépi tanulás segít megtalálni mindenféle ismeretlen mintát az adatokban.
- A klaszterezés és az asszociáció a felügyelet nélküli tanulás két típusa.
- A klaszterezési módszerek négy típusa: 1) Kizárólagos 2) Agglomeratív 3) Átfedő 4) Valószínűségi.
- A legfontosabb klaszterezési típusok a következők: 1) Hierarchikus klaszterezés 2) K-means klaszterezés 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
- A társítási szabályok lehetővé teszik az adatobjektumok közötti társítások létrehozását nagy adatbázisokon belül.
- A felügyelt tanulásban az algoritmusokat címkézett adatokon képzik ki, míg a felügyelet nélküli tanulásban az algoritmusokat címkézetlen adatokkal szemben használják.
- Az anomália-felismerés fontos adatpontokat fedezhet fel az adatállományban, ami hasznos a csalárd tranzakciók felderítéséhez.
- A felügyelet nélküli tanulás legnagyobb hátránya, hogy nem kaphatunk pontos információt az adatok rendezésére vonatkozóan.