- Učení bez dozoru
- Algoritmy učení bez dohledu
- Příklad nekontrolovaného strojového učení
- Proč učení bez dozoru?“
- Typy neřízeného učení
- Shlukování
- Výhradní (rozdělení)
- Aglomerativní
- Překrývání
- Pravděpodobnostní
- Typy shlukování
- Hierarchické shlukování:
- K-means Clustering
- Aglomerativní shlukování:
- Dendrogram:
- K- nejbližší sousedé
- Analýza hlavních komponent:
- Asociace
- Supervised vs. Unsupervised Machine Learning
- Aplikace neřízeného strojového učení
- Nevýhody neřízeného učení
- Souhrn
Učení bez dozoru
Učení bez dozoru je technika strojového učení, při které uživatelé nemusí model řídit. Místo toho umožňuje modelu, aby pracoval sám a objevil vzory a informace, které předtím nebyly zjištěny. Zabývá se především neoznačenými daty.
Algoritmy učení bez dohledu
Algoritmy učení bez dohledu umožňují uživatelům provádět složitější úlohy zpracování ve srovnání s učením pod dohledem. Ačkoli učení bez dohledu může být ve srovnání s jinými metodami přirozeného učení nepředvídatelnější. Mezi algoritmy učení bez dohledu patří shlukování, detekce anomálií, neuronové sítě atd.
V tomto výukovém kurzu se naučíte:
- Příklad strojového učení bez dohledu
- Proč učení bez dohledu?
- Typy nekontrolovaného učení
- Shlukování
- Typy shlukování
- Asociace
- Kontrolované vs. kontrolované. Nekontrolované strojové učení
- Aplikace nekontrolovaného strojového učení
- Nevýhody nekontrolovaného učení
Příklad nekontrolovaného strojového učení
Podívejme se na případ dítěte a jeho rodinného psa.
Dítě tohoto psa zná a identifikuje. O několik týdnů později si rodinný přítel přivede psa a snaží se s dítětem hrát.
Dítě tohoto psa dříve nevidělo. Poznává však, že mnohé rysy (2 uši, oči, chůze po 4 nohách) jsou jako u jejího domácího psa. Identifikuje nové zvíře jako psa. Jedná se o učení bez dohledu, kdy se neučí, ale učí se z dat (v tomto případě z dat o psu.) Kdyby se jednalo o učení s dohledem, rodinný přítel by dítěti řekl, že se jedná o psa.
Proč učení bez dozoru?“
Tady jsou hlavní důvody pro použití učení bez dozoru:
- Neovládané strojové učení nachází v datech všechny druhy neznámých vzorů.
- Neovládané metody pomáhají nalézt rysy, které mohou být užitečné pro kategorizaci.
- Probíhá v reálném čase, takže všechna vstupní data, která mají být analyzována a označena za přítomnosti učících se.
- Je snazší získat neoznačená data z počítače než data označená, která vyžadují ruční zásah.
Typy neřízeného učení
Problémy neřízeného učení se dále dělí na problémy shlukování a asociace.
Shlukování
Shlukování je důležitý pojem, pokud jde o učení bez dohledu. Zabývá se především nalezením struktury nebo vzoru v souboru nekategorizovaných dat. Shlukovací algoritmy zpracují data a najdou přirozené shluky(skupiny), pokud v datech existují. Můžete také upravit, kolik shluků mají algoritmy identifikovat. Umožňuje upravit granularitu těchto skupin.
Existují různé typy shlukování, které můžete využít:
Výhradní (rozdělení)
Při této metodě shlukování jsou data seskupena tak, že jedna data mohou patřit pouze do jednoho shluku.
Příklad: K-means
Aglomerativní
Při této technice shlukování je každý údaj shlukem. Iterační sjednocení dvou nejbližších shluků snižuje počet shluků.
Příklad: Hierarchické shlukování
Překrývání
V této technice se ke shlukování dat používají fuzzy množiny. Každý bod může patřit do dvou nebo více shluků s různými stupni příslušnosti.
Datům se zde přiřadí příslušná hodnota příslušnosti. Příklad: Fuzzy C-Means
Pravděpodobnostní
Tato technika používá k vytvoření shluků pravděpodobnostní rozdělení
Příklad: Následující klíčová slova
- „pánská bota“
- „dámská bota“
- „dámská rukavice“
- „pánská rukavice“
mohou být shlukována do dvou kategorií „bota“ a „rukavice“ nebo „muž“ a „žena“.
Typy shlukování
- Hierarchické shlukování
- K-means shlukování
- K-NN (k nejbližších sousedů)
- Analýza hlavních komponent
- Singulární rozklad hodnot
- Analýza nezávislých komponent
Hierarchické shlukování:
Hierarchické shlukování je algoritmus, který vytváří hierarchii shluků. Začíná se všemi daty, která se přiřadí do vlastního shluku. Zde budou dva blízké shluky ve stejném shluku. Tento algoritmus končí, když zbývá pouze jeden shluk.
K-means Clustering
K znamená, že se jedná o iterační algoritmus shlukování, který pomáhá najít nejvyšší hodnotu pro každou iteraci. Na začátku se vybere požadovaný počet shluků. Při této metodě shlukování je třeba shlukovat datové body do k skupin. Větší k znamená menší skupiny s větší granularitou stejným způsobem. Menší k znamená větší skupiny s menší granularitou.
Výstupem algoritmu je skupina „štítků“. Přiřadí datový bod k jedné z k skupin. Při shlukování k-means je každá skupina definována vytvořením centroidu pro každou skupinu. Centroidy jsou jako srdce shluku, které zachycuje body, jež jsou jim nejblíže, a přidává je do shluku.
K-mean shlukování dále definuje dvě podskupiny:
- Aglomerativní shlukování
- Dendrogram
Aglomerativní shlukování:
Tento typ K-means shlukování začíná s pevným počtem shluků. Přiřadí všechna data do přesného počtu shluků. Tato metoda shlukování nevyžaduje jako vstupní údaj počet shluků K. Proces aglomerace začíná vytvořením každého data jako jednoho shluku.
Tato metoda používá určitou míru vzdálenosti, snižuje počet shluků (jeden v každé iteraci) procesem slučování. Nakonec máme jeden velký shluk, který obsahuje všechny objekty.
Dendrogram:
V metodě shlukování Dendrogram bude každá úroveň představovat možný shluk. Výška dendrogramu ukazuje úroveň podobnosti mezi dvěma spojenými shluky. Čím blíže k dolní části procesu, tím jsou si shluky podobnější, což je zjištění skupiny z dendrogramu, které není přirozené a většinou subjektivní.
K- nejbližší sousedé
K- nejbližší soused je nejjednodušší ze všech klasifikátorů strojového učení. Od ostatních technik strojového učení se liší tím, že nevytváří model. Je to jednoduchý algoritmus, který ukládá všechny dostupné případy a klasifikuje nové případy na základě míry podobnosti.
Funguje velmi dobře, když mezi příklady existuje určitá vzdálenost. Rychlost učení je pomalá, když je trénovací množina velká a výpočet vzdálenosti není triviální.
Analýza hlavních komponent:
V případě, že chcete získat prostor o vyšší dimenzi. Musíte vybrat bázi tohoto prostoru a pouze 200 nejdůležitějších skóre této báze. Tato báze se nazývá hlavní komponenta. Vámi vybraná podmnožina tvoří nový prostor, který je ve srovnání s původním prostorem malý. Zachovává co nejvíce ze složitosti dat.
Asociace
Asociační pravidla umožňují vytvářet asociace mezi datovými objekty uvnitř rozsáhlých databází. Tato neřízená technika spočívá v objevování zajímavých vztahů mezi proměnnými ve velkých databázích. Například lidé, kteří si kupují nový dům, si s největší pravděpodobností kupují i nový nábytek.
Další příklady:
- Podskupina pacientů s rakovinou seskupená podle měření genové exprese
- Skupiny nakupujících na základě jejich historie prohlížení a nakupování
- Skupina filmů podle hodnocení, které jim udělili diváci filmů
Supervised vs. Unsupervised Machine Learning
Parametry | Supervised machine learning technique | Unsupervised machine learning technique |
Vstupní data | Algoritmy jsou trénovány pomocí označených dat. | Algoritmy se používají proti datům, která nejsou označena |
Výpočetní složitost | Učení pod dohledem je jednodušší metoda. | Neřízené učení je výpočetně složité |
Přesnost | Vysoce přesná a důvěryhodná metoda. | Méně přesná a důvěryhodná metoda. |
Aplikace neřízeného strojového učení
Některé aplikace technik neřízeného strojového učení jsou následující:
- Klastrování automaticky rozdělí soubor dat do skupin na základě jejich podobnosti
- Detekce anomálií může odhalit neobvyklé datové body v souboru dat. Je užitečná pro vyhledávání podvodných transakcí
- Asociation mining identifikuje množiny položek, které se ve vašem souboru dat často vyskytují společně
- Modely latentních proměnných se široce používají pro předběžné zpracování dat. Jako je snížení počtu rysů v souboru dat nebo rozložení souboru dat na více složek
Nevýhody neřízeného učení
- Nemůžete získat přesné informace týkající se třídění dat a výstupu, protože data použitá v neřízeném učení jsou označena a nejsou známa
- Menší přesnost výsledků je proto, že vstupní data nejsou známa a nejsou předem označena lidmi. To znamená, že stroj vyžaduje, aby to udělal sám.
- Spektrální třídy neodpovídají vždy informačním třídám.
- Uživatel musí strávit čas interpretací a označením tříd, které následují po této klasifikaci.
- Spektrální vlastnosti tříd se také mohou v průběhu času měnit, takže při přechodu z jednoho snímku na druhý nelze mít stejné informace o třídě.
Souhrn
- Neovládané učení je technika strojového učení, při níž není třeba nad modelem vykonávat dohled.
- Neovládané strojové učení vám pomůže najít v datech všechny druhy neznámých vzorů.
- Shlukování a asociace jsou dva typy neřízeného učení.
- Čtyři typy metod shlukování jsou: 1) exkluzivní 2) aglomerativní 3) překrývající 4) pravděpodobnostní.
- Důležité typy shlukování jsou: 1) exkluzivní 2) aglomerativní 3) překrývající 4) pravděpodobnostní: 1)Hierarchické shlukování 2) K-means shlukování 3) K-NN 4) Analýza hlavních komponent 5) Dekompozice singulárních hodnot 6) Analýza nezávislých komponent.
- Asociační pravidla umožňují stanovit asociace mezi datovými objekty uvnitř rozsáhlých databází.
- Při supervidovaném učení se algoritmy trénují pomocí označených dat, zatímco při neřízeném učení se algoritmy používají proti datům, která nejsou označena.
- Detekce anomálií může odhalit důležité datové body v souboru dat, což je užitečné pro vyhledávání podvodných transakcí.
- Největší nevýhodou neřízeného učení je, že nelze získat přesné informace týkající se třídění dat.