Strojové učení bez dohledu: Učení bez dozoru: co to je, algoritmy, příklad

Učení bez dozoru

Učení bez dozoru je technika strojového učení, při které uživatelé nemusí model řídit. Místo toho umožňuje modelu, aby pracoval sám a objevil vzory a informace, které předtím nebyly zjištěny. Zabývá se především neoznačenými daty.

Algoritmy učení bez dohledu

Algoritmy učení bez dohledu umožňují uživatelům provádět složitější úlohy zpracování ve srovnání s učením pod dohledem. Ačkoli učení bez dohledu může být ve srovnání s jinými metodami přirozeného učení nepředvídatelnější. Mezi algoritmy učení bez dohledu patří shlukování, detekce anomálií, neuronové sítě atd.

V tomto výukovém kurzu se naučíte:

Příklad strojového učení bez dohledu
Proč učení bez dohledu?
Typy nekontrolovaného učení
Shlukování
Typy shlukování
Asociace
Kontrolované vs. kontrolované. Nekontrolované strojové učení
Aplikace nekontrolovaného strojového učení
Nevýhody nekontrolovaného učení

Příklad nekontrolovaného strojového učení

Podívejme se na případ dítěte a jeho rodinného psa.

Dítě tohoto psa zná a identifikuje. O několik týdnů později si rodinný přítel přivede psa a snaží se s dítětem hrát.

Dítě tohoto psa dříve nevidělo. Poznává však, že mnohé rysy (2 uši, oči, chůze po 4 nohách) jsou jako u jejího domácího psa. Identifikuje nové zvíře jako psa. Jedná se o učení bez dohledu, kdy se neučí, ale učí se z dat (v tomto případě z dat o psu.) Kdyby se jednalo o učení s dohledem, rodinný přítel by dítěti řekl, že se jedná o psa.

Proč učení bez dozoru?“

Tady jsou hlavní důvody pro použití učení bez dozoru:

Neovládané strojové učení nachází v datech všechny druhy neznámých vzorů.
Neovládané metody pomáhají nalézt rysy, které mohou být užitečné pro kategorizaci.
Probíhá v reálném čase, takže všechna vstupní data, která mají být analyzována a označena za přítomnosti učících se.
Je snazší získat neoznačená data z počítače než data označená, která vyžadují ruční zásah.

Typy neřízeného učení

Problémy neřízeného učení se dále dělí na problémy shlukování a asociace.

Shlukování

Shlukování je důležitý pojem, pokud jde o učení bez dohledu. Zabývá se především nalezením struktury nebo vzoru v souboru nekategorizovaných dat. Shlukovací algoritmy zpracují data a najdou přirozené shluky(skupiny), pokud v datech existují. Můžete také upravit, kolik shluků mají algoritmy identifikovat. Umožňuje upravit granularitu těchto skupin.

Existují různé typy shlukování, které můžete využít:

Výhradní (rozdělení)

Při této metodě shlukování jsou data seskupena tak, že jedna data mohou patřit pouze do jednoho shluku.

Příklad: K-means

Aglomerativní

Při této technice shlukování je každý údaj shlukem. Iterační sjednocení dvou nejbližších shluků snižuje počet shluků.

Příklad: Hierarchické shlukování

Překrývání

V této technice se ke shlukování dat používají fuzzy množiny. Každý bod může patřit do dvou nebo více shluků s různými stupni příslušnosti.

Datům se zde přiřadí příslušná hodnota příslušnosti. Příklad: Fuzzy C-Means

Pravděpodobnostní

Tato technika používá k vytvoření shluků pravděpodobnostní rozdělení

Příklad: Následující klíčová slova

„pánská bota“
„dámská bota“
„dámská rukavice“
„pánská rukavice“

mohou být shlukována do dvou kategorií „bota“ a „rukavice“ nebo „muž“ a „žena“.

Typy shlukování

Hierarchické shlukování
K-means shlukování
K-NN (k nejbližších sousedů)
Analýza hlavních komponent
Singulární rozklad hodnot
Analýza nezávislých komponent

Hierarchické shlukování:

Hierarchické shlukování je algoritmus, který vytváří hierarchii shluků. Začíná se všemi daty, která se přiřadí do vlastního shluku. Zde budou dva blízké shluky ve stejném shluku. Tento algoritmus končí, když zbývá pouze jeden shluk.

K-means Clustering

K znamená, že se jedná o iterační algoritmus shlukování, který pomáhá najít nejvyšší hodnotu pro každou iteraci. Na začátku se vybere požadovaný počet shluků. Při této metodě shlukování je třeba shlukovat datové body do k skupin. Větší k znamená menší skupiny s větší granularitou stejným způsobem. Menší k znamená větší skupiny s menší granularitou.

Výstupem algoritmu je skupina „štítků“. Přiřadí datový bod k jedné z k skupin. Při shlukování k-means je každá skupina definována vytvořením centroidu pro každou skupinu. Centroidy jsou jako srdce shluku, které zachycuje body, jež jsou jim nejblíže, a přidává je do shluku.

K-mean shlukování dále definuje dvě podskupiny:

Aglomerativní shlukování
Dendrogram

Aglomerativní shlukování:

Tento typ K-means shlukování začíná s pevným počtem shluků. Přiřadí všechna data do přesného počtu shluků. Tato metoda shlukování nevyžaduje jako vstupní údaj počet shluků K. Proces aglomerace začíná vytvořením každého data jako jednoho shluku.

Tato metoda používá určitou míru vzdálenosti, snižuje počet shluků (jeden v každé iteraci) procesem slučování. Nakonec máme jeden velký shluk, který obsahuje všechny objekty.

Dendrogram:

V metodě shlukování Dendrogram bude každá úroveň představovat možný shluk. Výška dendrogramu ukazuje úroveň podobnosti mezi dvěma spojenými shluky. Čím blíže k dolní části procesu, tím jsou si shluky podobnější, což je zjištění skupiny z dendrogramu, které není přirozené a většinou subjektivní.

K- nejbližší sousedé

K- nejbližší soused je nejjednodušší ze všech klasifikátorů strojového učení. Od ostatních technik strojového učení se liší tím, že nevytváří model. Je to jednoduchý algoritmus, který ukládá všechny dostupné případy a klasifikuje nové případy na základě míry podobnosti.

Funguje velmi dobře, když mezi příklady existuje určitá vzdálenost. Rychlost učení je pomalá, když je trénovací množina velká a výpočet vzdálenosti není triviální.

Analýza hlavních komponent:

V případě, že chcete získat prostor o vyšší dimenzi. Musíte vybrat bázi tohoto prostoru a pouze 200 nejdůležitějších skóre této báze. Tato báze se nazývá hlavní komponenta. Vámi vybraná podmnožina tvoří nový prostor, který je ve srovnání s původním prostorem malý. Zachovává co nejvíce ze složitosti dat.

Asociace

Asociační pravidla umožňují vytvářet asociace mezi datovými objekty uvnitř rozsáhlých databází. Tato neřízená technika spočívá v objevování zajímavých vztahů mezi proměnnými ve velkých databázích. Například lidé, kteří si kupují nový dům, si s největší pravděpodobností kupují i nový nábytek.

Další příklady:

Podskupina pacientů s rakovinou seskupená podle měření genové exprese
Skupiny nakupujících na základě jejich historie prohlížení a nakupování
Skupina filmů podle hodnocení, které jim udělili diváci filmů

Supervised vs. Unsupervised Machine Learning

Parametry	Supervised machine learning technique	Unsupervised machine learning technique
Vstupní data	Algoritmy jsou trénovány pomocí označených dat.	Algoritmy se používají proti datům, která nejsou označena
Výpočetní složitost	Učení pod dohledem je jednodušší metoda.	Neřízené učení je výpočetně složité
Přesnost	Vysoce přesná a důvěryhodná metoda.	Méně přesná a důvěryhodná metoda.

Aplikace neřízeného strojového učení

Některé aplikace technik neřízeného strojového učení jsou následující:

Klastrování automaticky rozdělí soubor dat do skupin na základě jejich podobnosti
Detekce anomálií může odhalit neobvyklé datové body v souboru dat. Je užitečná pro vyhledávání podvodných transakcí
Asociation mining identifikuje množiny položek, které se ve vašem souboru dat často vyskytují společně
Modely latentních proměnných se široce používají pro předběžné zpracování dat. Jako je snížení počtu rysů v souboru dat nebo rozložení souboru dat na více složek

Nevýhody neřízeného učení

Nemůžete získat přesné informace týkající se třídění dat a výstupu, protože data použitá v neřízeném učení jsou označena a nejsou známa
Menší přesnost výsledků je proto, že vstupní data nejsou známa a nejsou předem označena lidmi. To znamená, že stroj vyžaduje, aby to udělal sám.
Spektrální třídy neodpovídají vždy informačním třídám.
Uživatel musí strávit čas interpretací a označením tříd, které následují po této klasifikaci.
Spektrální vlastnosti tříd se také mohou v průběhu času měnit, takže při přechodu z jednoho snímku na druhý nelze mít stejné informace o třídě.

Souhrn

Neovládané učení je technika strojového učení, při níž není třeba nad modelem vykonávat dohled.
Neovládané strojové učení vám pomůže najít v datech všechny druhy neznámých vzorů.
Shlukování a asociace jsou dva typy neřízeného učení.
Čtyři typy metod shlukování jsou: 1) exkluzivní 2) aglomerativní 3) překrývající 4) pravděpodobnostní.
Důležité typy shlukování jsou: 1) exkluzivní 2) aglomerativní 3) překrývající 4) pravděpodobnostní: 1)Hierarchické shlukování 2) K-means shlukování 3) K-NN 4) Analýza hlavních komponent 5) Dekompozice singulárních hodnot 6) Analýza nezávislých komponent.
Asociační pravidla umožňují stanovit asociace mezi datovými objekty uvnitř rozsáhlých databází.
Při supervidovaném učení se algoritmy trénují pomocí označených dat, zatímco při neřízeném učení se algoritmy používají proti datům, která nejsou označena.
Detekce anomálií může odhalit důležité datové body v souboru dat, což je užitečné pro vyhledávání podvodných transakcí.
Největší nevýhodou neřízeného učení je, že nelze získat přesné informace týkající se třídění dat.

Wzrost