Unsupervised Learning

Unsupervised Learning to technika uczenia maszynowego, w której użytkownicy nie muszą nadzorować modelu. Zamiast tego, pozwala modelowi pracować na własną rękę, aby odkryć wzorce i informacje, które wcześniej nie zostały wykryte. Dotyczy to głównie danych nieoznakowanych.

Algorytmy uczenia nienadzorowanego

Algorytmy uczenia nienadzorowanego pozwalają użytkownikom na wykonywanie bardziej złożonych zadań przetwarzania w porównaniu z uczeniem nadzorowanym. Chociaż, uczenie nienadzorowane może być bardziej nieprzewidywalne w porównaniu z innymi metodami uczenia naturalnego. Algorytmy uczenia nienadzorowanego obejmują klastrowanie, wykrywanie anomalii, sieci neuronowe itp.

W tym samouczku, nauczysz się:

  • Przykład uczenia maszynowego bez nadzoru
  • Dlaczego uczenie bez nadzoru?
  • Typy uczenia nienadzorowanego
  • Klasteryzacja
  • Typy klasteryzacji
  • Asocjacja
  • Nadzorowane vs. Unsupervised Machine Learning
  • Applications of unsupervised machine learning
  • Disadvantages of Unsupervised Learning

Example of Unsupervised Machine Learning

Let’s, take the case of a baby and her family dog.

Ona zna i identyfikuje tego psa. Kilka tygodni później przyjaciel rodziny przyprowadza psa i próbuje bawić się z dzieckiem.

Dziecko nie widziało wcześniej tego psa. Ale rozpoznaje, że wiele cech (2 uszy, oczy, chodzenie na 4 nogach) jest podobnych do jej psa. Ona identyfikuje nowe zwierzę jako psa. To jest uczenie bez nadzoru, gdzie nie jesteś uczony, ale uczysz się na podstawie danych (w tym przypadku danych o psie.) Gdyby to było uczenie pod nadzorem, przyjaciel rodziny powiedziałby dziecku, że to jest pies.

Dlaczego uczenie nienadzorowane?

Oto główne powody używania uczenia nienadzorowanego:

  • Nienadzorowane uczenie maszynowe znajduje wszelkiego rodzaju nieznane wzorce w danych.
  • Nienadzorowane metody pomagają znaleźć cechy, które mogą być przydatne do kategoryzacji.
  • Odbywa się w czasie rzeczywistym, więc wszystkie dane wejściowe do analizy i etykietowania w obecności uczących się.
  • Łatwiej jest uzyskać nieznakowane dane z komputera niż oznakowane dane, które wymagają ręcznej interwencji.

Typy uczenia nienadzorowanego

Problemy uczenia nienadzorowanego dalej pogrupowane na problemy grupowania i asocjacji.

Klasteryzacja

Klastrowanie jest ważnym pojęciem, jeśli chodzi o uczenie bez nadzoru. Zajmuje się ona głównie znajdowaniem struktury lub wzorca w zbiorze nieskategoryzowanych danych. Algorytmy klasteryzacji przetwarzają dane i znajdują naturalne skupiska (grupy), jeśli takie istnieją w danych. Możesz również modyfikować liczbę klastrów, które algorytmy powinny zidentyfikować. Pozwala to na dostosowanie ziarnistości tych grup.

Istnieją różne typy klastrowania, które możesz wykorzystać:

Ekskluzywne (partycjonowanie)

W tej metodzie grupowania dane są grupowane w taki sposób, że jedna dana może należeć tylko do jednego klastra.

Przykład: K-means

Agglomeracyjna

W tej technice klasteryzacji, każde dane są klastrem. Iteracyjne związki między dwoma najbliższymi klastrami zmniejszają liczbę klastrów.

Przykład: Hierarchical clustering

Overlapping

W tej technice, zbiory rozmyte są używane do grupowania danych. Każdy punkt może należeć do dwóch lub więcej klastrów z oddzielnymi stopniami przynależności.

Tutaj, dane będą powiązane z odpowiednią wartością przynależności. Przykład: Fuzzy C-Means

Probabilistic

Ta technika wykorzystuje rozkład prawdopodobieństwa do tworzenia klastrów

Przykład: Następujące słowa kluczowe

  • „but męski.”
  • „but damski.”
  • „rękawiczka damska.”
  • „rękawiczka męska.”

mogą być zgrupowane w dwie kategorie „but” i „rękawiczka” lub „mężczyzna” i „kobieta”.

Typy klasteryzacji

  • Klasteryzacja hierarchiczna
  • K-means clustering
  • K-NN (k najbliższych sąsiadów)
  • Principal Component Analysis
  • Singular Value Decomposition
  • Independent Component Analysis

Klasteryzacja hierarchiczna:

Klasteryzacja hierarchiczna jest algorytmem, który buduje hierarchię skupień. Zaczyna się od wszystkich danych, które są przypisane do klastra ich własnych. Tutaj, dwa bliskie klastry będą w tym samym klastrze. Algorytm ten kończy się, gdy pozostaje tylko jeden klaster.

K-means Clustering

K oznacza, że jest to iteracyjny algorytm klastrowania, który pomaga znaleźć najwyższą wartość dla każdej iteracji. Początkowo, pożądana liczba klastrów są wybierane. W tej metodzie klasteryzacji, musisz skupić punkty danych w k grup. Większe k oznacza mniejsze grupy o większej ziarnistości w ten sam sposób. Mniejsze k oznacza większe grupy o mniejszej ziarnistości.

Wynikiem działania algorytmu jest grupa „etykiet”. Przypisuje ona punkt danych do jednej z k grup. W k-klasteryzacji każda grupa jest definiowana poprzez utworzenie centroidu dla każdej grupy. Centroidy są jak serce klastra, które przechwytuje punkty znajdujące się najbliżej nich i dodaje je do klastra.

K-mean clustering dalej definiuje dwie podgrupy:

  • Klasteryzacja aglomeracyjna
  • Dendrogram

Klasteryzacja aglomeracyjna:

Ten typ klasteryzacji K-means rozpoczyna się z ustaloną liczbą klastrów. Przydziela on wszystkie dane do dokładnej liczby klastrów. Metoda ta nie wymaga podania liczby klastrów K jako danych wejściowych. Proces aglomeracji rozpoczyna się od utworzenia każdego z danych jako pojedynczego klastra.

Ta metoda wykorzystuje pewną miarę odległości, redukuje liczbę klastrów (jeden w każdej iteracji) poprzez proces łączenia. W końcu mamy jeden duży klaster, który zawiera wszystkie obiekty.

Dendrogram:

W metodzie klasteryzacji dendrogramu, każdy poziom będzie reprezentował możliwy klaster. Wysokość dendrogramu pokazuje poziom podobieństwa między dwoma połączonymi klastrami. Im bliżej dna procesu tym bardziej podobne są klastry, co jest znalezieniem grupy z dendrogramu, który nie jest naturalny i w większości subiektywny.

K-najbliżsi sąsiedzi

K-najbliższy sąsiad jest najprostszym z klasyfikatorów uczenia maszynowego. Różni się od innych technik uczenia maszynowego tym, że nie tworzy modelu. Jest to prosty algorytm, który przechowuje wszystkie dostępne przypadki i klasyfikuje nowe instancje w oparciu o miarę podobieństwa.

Działa bardzo dobrze, gdy istnieje odległość między przykładami. Szybkość uczenia się jest powolna, gdy zestaw treningowy jest duży, a obliczanie odległości nie jest trywialne.

Principal Components Analysis:

W przypadku, gdy chcesz uzyskać przestrzeń o wyższym wymiarze. Musisz wybrać podstawę dla tej przestrzeni i tylko 200 najważniejszych wyników z tej podstawy. Ta baza jest znana jako główny składnik. Podzbiór, który wybierzesz stanowi nową przestrzeń, która ma mały rozmiar w porównaniu do oryginalnej przestrzeni. Zachowuje ona jak najwięcej ze złożoności danych.

Asocjacja

Reguły asocjacyjne pozwalają na ustalenie asocjacji pomiędzy obiektami danych wewnątrz dużych baz danych. Ta nienadzorowana technika polega na odkrywaniu interesujących związków pomiędzy zmiennymi w dużych bazach danych. Na przykład, osoby, które kupują nowy dom, najprawdopodobniej kupią też nowe meble.

Inne przykłady:

  • Podgrupa pacjentów z nowotworami pogrupowana na podstawie pomiarów ekspresji ich genów
  • Grupy kupujących na podstawie historii przeglądania i zakupów
  • Grupa filmów na podstawie oceny wystawionej przez widzów filmów

Supervised vs. Unsupervised Machine Learning

Parametry Technika uczenia maszynowego nadzorowanego Technika uczenia maszynowego nienadzorowanego
Dane wejściowe Algorytmy są trenowane przy użyciu danych etykietowanych. Algorytmy są używane przeciwko danym, które nie są etykietowane
Złożoność obliczeniowa Uczenie nadzorowane jest prostszą metodą. Uczenie nienadzorowane jest złożone obliczeniowo
Dokładność Wysoka dokładność i wiarygodność metody. Mniej dokładna i godna zaufania metoda.

Zastosowania nienadzorowanego uczenia maszynowego

Niektóre zastosowania nienadzorowanych technik uczenia maszynowego to:

  • Klastrowanie automatycznie dzieli zbiór danych na grupy na podstawie ich podobieństw
  • Detekcja anomalii może odkryć nietypowe punkty danych w zbiorze danych. Jest to przydatne do wyszukiwania oszukańczych transakcji
  • Association mining identyfikuje zestawy elementów, które często występują razem w zbiorze danych
  • Modele zmiennych względnych są szeroko stosowane do wstępnego przetwarzania danych. Jak zmniejszenie liczby cech w zbiorze danych lub dekompozycja zbioru danych na wiele komponentów

Wady uczenia nienadzorowanego

  • Nie można uzyskać dokładnych informacji dotyczących sortowania danych, a dane wyjściowe jako dane używane w uczeniu nienadzorowanym są etykietowane i nie są znane
  • Mniejsza dokładność wyników wynika z tego, że dane wejściowe nie są znane i nie są etykietowane przez ludzi z góry. Oznacza to, że maszyna musi zrobić to sama.
  • Klasy spektralne nie zawsze odpowiadają klasom informacyjnym.
  • Użytkownik musi poświęcić czas na interpretację i etykietowanie klas, które wynikają z tej klasyfikacji.
  • Właściwości spektralne klas mogą również zmieniać się w czasie, więc nie można mieć tej samej informacji o klasie podczas przechodzenia z jednego obrazu do drugiego.

Podsumowanie

  • Uczenie nienadzorowane to technika uczenia maszynowego, w której nie trzeba nadzorować modelu.
  • Uczenie nienadzorowane pomaga znaleźć wszelkiego rodzaju nieznane wzorce w danych.
  • Klastrowanie i asocjacja są dwoma typami uczenia nienadzorowanego.
  • Cztery typy metod klasteryzacji to 1) wyłączna 2) aglomeracyjna 3) nakładająca się 4) probabilistyczna.
  • Ważne typy klasteryzacji to: 1)Klasteryzacja hierarchiczna 2) K-means clustering 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
  • Reguły asocjacyjne pozwalają na ustalenie asocjacji pomiędzy obiektami danych wewnątrz dużych baz danych.
  • W uczeniu nadzorowanym algorytmy są trenowane przy użyciu danych oznaczonych etykietami, podczas gdy w uczeniu nienadzorowanym algorytmy są używane w odniesieniu do danych, które nie są oznaczone etykietami.
  • Detekcja anomalii może odkryć ważne punkty danych w zbiorze danych, co jest przydatne do znalezienia fałszywych transakcji.
  • Największą wadą uczenia nienadzorowanego jest to, że nie można uzyskać dokładnych informacji dotyczących sortowania danych.

admin

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg