Unüberwachtes maschinelles Lernen: Was ist das, Algorithmen, Beispiele

Unüberwachtes Lernen

Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der der Benutzer das Modell nicht überwachen muss. Stattdessen lässt es das Modell selbständig arbeiten, um Muster und Informationen zu entdecken, die zuvor unentdeckt waren. Sie befasst sich hauptsächlich mit unmarkierten Daten.

Unüberwachte Lernalgorithmen

Unüberwachte Lernalgorithmen ermöglichen es dem Benutzer, im Vergleich zum überwachten Lernen komplexere Verarbeitungsaufgaben durchzuführen. Allerdings kann unüberwachtes Lernen im Vergleich zu anderen natürlichen Lernmethoden unberechenbarer sein. Zu den unüberwachten Lernalgorithmen gehören Clustering, Anomalieerkennung, neuronale Netze usw.

In diesem Tutorium werden Sie lernen:

Beispiel für unüberwachtes maschinelles Lernen
Warum unüberwachtes Lernen?
Arten des unüberwachten Lernens
Clustering
Clustering-Typen
Assoziation
Überwachtes vs. unüberwachtes maschinelles Lernen
Unüberwachtes maschinelles Lernen
Anwendungen des unüberwachten maschinellen Lernens
Nachteile des unüberwachten Lernens

Beispiel für unüberwachtes maschinelles Lernen

Nehmen wir den Fall eines Babys und des Familienhundes.

Sie kennt und identifiziert diesen Hund. Ein paar Wochen später bringt ein Freund der Familie einen Hund mit und versucht, mit dem Baby zu spielen.

Das Baby hat diesen Hund vorher nicht gesehen. Aber es erkennt, dass viele Merkmale (2 Ohren, Augen, Laufen auf 4 Beinen) wie ihr Haushund sind. Sie identifiziert das neue Tier als Hund. Das ist unüberwachtes Lernen, bei dem man nicht belehrt wird, sondern aus den Daten (in diesem Fall Daten über einen Hund) lernt. Wäre dies überwachtes Lernen gewesen, hätte der Familienfreund dem Baby gesagt, dass es ein Hund ist.

Warum unüberwachtes Lernen?

Hier sind die Hauptgründe für die Verwendung von unüberwachtem Lernen:

Unüberwachtes maschinelles Lernen findet alle Arten von unbekannten Mustern in Daten.
Unüberwachte Methoden helfen, Merkmale zu finden, die für die Kategorisierung nützlich sein können.
Es findet in Echtzeit statt, so dass alle Eingabedaten in Anwesenheit der Lernenden analysiert und beschriftet werden.
Es ist einfacher, unbeschriftete Daten von einem Computer zu erhalten als beschriftete Daten, die einen manuellen Eingriff erfordern.

Arten des unüberwachten Lernens

Unüberwachte Lernprobleme werden weiter in Clustering- und Assoziationsprobleme unterteilt.

Clustering

Clustering ist ein wichtiges Konzept, wenn es um unüberwachtes Lernen geht. Es befasst sich hauptsächlich damit, eine Struktur oder ein Muster in einer Sammlung von nicht kategorisierten Daten zu finden. Clustering-Algorithmen verarbeiten Ihre Daten und finden natürliche Cluster (Gruppen), wenn sie in den Daten vorhanden sind. Sie können auch festlegen, wie viele Cluster die Algorithmen identifizieren sollen. So können Sie die Granularität dieser Gruppen anpassen.

Es gibt verschiedene Arten von Clustern, die Sie verwenden können:

Ausschließlich (Partitionierung)

Bei dieser Clustering-Methode werden die Daten so gruppiert, dass sie nur zu einem Cluster gehören können.

Beispiel: K-means

Agglomerativ

Bei dieser Clustermethode sind alle Daten ein Cluster. Die iterativen Vereinigungen zwischen den beiden nächstgelegenen Clustern reduzieren die Anzahl der Cluster.

Beispiel: Hierarchisches Clustering

Overlapping

In dieser Technik werden Fuzzy-Sets zum Clustern von Daten verwendet. Jeder Punkt kann zu zwei oder mehr Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören.

Hier werden die Daten mit einem geeigneten Zugehörigkeitswert verbunden. Beispiel: Fuzzy C-Means

Probabilistisch

Diese Technik verwendet eine Wahrscheinlichkeitsverteilung, um die Cluster zu erstellen

Beispiel: Folgende Schlüsselwörter

„Männerschuh.“
„Frauenschuh.“
„Frauenhandschuh.“
„Männerhandschuh.“

können in zwei Kategorien „Schuh“ und „Handschuh“ oder „Mann“ und „Frauen“ geclustert werden.

Clustertypen

Hierarchisches Clustering
K-Mittelwert-Clustering
K-NN (k nächste Nachbarn)
Hauptkomponentenanalyse
Singulärwertzerlegung
Independent Component Analysis

Hierarchisches Clustering:

Hierarchisches Clustering ist ein Algorithmus, der eine Hierarchie von Clustern aufbaut. Er beginnt mit allen Daten, die einem eigenen Cluster zugewiesen werden. Hier werden zwei nahe beieinander liegende Cluster im selben Cluster sein. Dieser Algorithmus endet, wenn es nur noch einen Cluster gibt.

K-means Clustering

K bedeutet, dass es sich um einen iterativen Clustering-Algorithmus handelt, der bei jeder Iteration hilft, den höchsten Wert zu finden. Zu Beginn wird die gewünschte Anzahl von Clustern ausgewählt. Bei dieser Clustering-Methode müssen Sie die Datenpunkte in k Gruppen einteilen. Ein größeres k bedeutet kleinere Gruppen mit mehr Granularität in gleicher Weise. Ein niedrigeres k bedeutet größere Gruppen mit geringerer Granularität.

Die Ausgabe des Algorithmus ist eine Gruppe von „Labels“. Er ordnet die Datenpunkte einer der k Gruppen zu. Beim k-means Clustering wird jede Gruppe definiert, indem für jede Gruppe ein Zentroid erstellt wird. Die Zentroide sind wie das Herz des Clusters, das die Punkte erfasst, die ihnen am nächsten sind, und sie dem Cluster hinzufügt.

Beim K-Mittelwert-Clustering werden außerdem zwei Untergruppen definiert:

Agglomeratives Clustering
Dendrogramm

Agglomeratives Clustering:

Dieser Typ des K-means Clustering beginnt mit einer festen Anzahl von Clustern. Sie teilt alle Daten in genau diese Anzahl von Clustern ein. Diese Clustermethode benötigt die Anzahl der Cluster K nicht als Eingabe. Der Agglomerationsprozess beginnt mit der Bildung eines einzelnen Clusters aus allen Daten.

Diese Methode verwendet ein Abstandsmaß und reduziert die Anzahl der Cluster (einen in jeder Iteration) durch einen Zusammenführungsprozess. Am Ende haben wir einen großen Cluster, der alle Objekte enthält.

Dendrogramm:

Bei der Dendrogramm-Clustermethode stellt jede Ebene einen möglichen Cluster dar. Die Höhe des Dendrogramms zeigt den Grad der Ähnlichkeit zwischen zwei verbundenen Clustern. Je näher am unteren Ende des Prozesses sie sind mehr ähnliche Cluster, die das Finden der Gruppe von Dendrogramm, die nicht natürlich und meist subjektiv ist.

K- Nächste Nachbarn

K- Nächste Nachbarn ist der einfachste aller maschinellen Lernklassifikatoren. Er unterscheidet sich von anderen maschinellen Lernverfahren dadurch, dass er kein Modell erstellt. Es handelt sich um einen einfachen Algorithmus, der alle verfügbaren Fälle speichert und neue Instanzen auf der Grundlage eines Ähnlichkeitsmaßes klassifiziert.

Es funktioniert sehr gut, wenn es einen Abstand zwischen den Beispielen gibt. Die Lerngeschwindigkeit ist langsam, wenn die Trainingsmenge groß ist, und die Abstandsberechnung ist nicht trivial.

Principal Components Analysis:

Wenn Sie einen höherdimensionalen Raum wollen. Man muss eine Basis für diesen Raum und nur die 200 wichtigsten Werte dieser Basis auswählen. Diese Basis wird als Hauptkomponente bezeichnet. Die von Ihnen ausgewählte Teilmenge bildet einen neuen Raum, der im Vergleich zum ursprünglichen Raum klein ist. Dabei bleibt die Komplexität der Daten so weit wie möglich erhalten.

Assoziation

Assoziationsregeln ermöglichen es, Assoziationen zwischen Datenobjekten in großen Datenbanken herzustellen. Bei dieser unüberwachten Technik geht es darum, interessante Beziehungen zwischen Variablen in großen Datenbanken zu entdecken. Zum Beispiel kaufen Personen, die ein neues Haus kaufen, mit hoher Wahrscheinlichkeit auch neue Möbel.

Andere Beispiele:

Eine Untergruppe von Krebspatienten, die anhand ihrer Genexpressionsmessungen gruppiert werden
Gruppen von Käufern auf der Grundlage ihrer Browsing- und Kaufhistorie
Filmgruppen anhand der von den Zuschauern abgegebenen Bewertungen

Supervised vs. Unüberwachtes maschinelles Lernen

Parameter	Technik des überwachten maschinellen Lernens	Technik des unüberwachten maschinellen Lernens
Eingabedaten	Algorithmen werden mit markierten Daten trainiert.	Algorithmen werden mit Daten trainiert, die nicht gekennzeichnet sind
Rechenaufwand	Überwachtes Lernen ist eine einfachere Methode.	Unüberwachtes Lernen ist rechnerisch komplex
Genauigkeit	Hochgenaue und vertrauenswürdige Methode.	wenig präzise und vertrauenswürdige Methode.

Anwendungen des unüberwachten maschinellen Lernens

Einige Anwendungen der unüberwachten maschinellen Lerntechniken sind:

Clustering unterteilt den Datensatz automatisch in Gruppen auf der Grundlage ihrer Ähnlichkeiten
Anomalieerkennung kann ungewöhnliche Datenpunkte in Ihrem Datensatz entdecken. Es ist nützlich, um betrügerische Transaktionen aufzuspüren
Association Mining identifiziert Gruppen von Elementen, die in Ihrem Datensatz häufig zusammen auftreten
Latente Variablenmodelle werden häufig für die Datenvorverarbeitung verwendet. So wird z. B. die Anzahl der Merkmale in einem Datensatz reduziert oder der Datensatz in mehrere Komponenten zerlegt

Nachteile des unüberwachten Lernens

Sie können keine präzisen Informationen über die Datensortierung erhalten, und die Ausgabe als Daten, die beim unüberwachten Lernen verwendet werden, ist etikettiert und nicht bekannt
Die Genauigkeit der Ergebnisse ist geringer, weil die Eingabedaten nicht bekannt sind und nicht von Menschen im Voraus etikettiert werden. Das bedeutet, dass die Maschine dies selbst tun muss.
Die Spektralklassen entsprechen nicht immer den Informationsklassen.
Der Benutzer muss Zeit aufwenden, um die Klassen, die dieser Klassifizierung folgen, zu interpretieren und zu beschriften.
Die spektralen Eigenschaften der Klassen können sich auch im Laufe der Zeit ändern, so dass man beim Wechsel von einem Bild zum anderen nicht dieselben Klasseninformationen hat.

Zusammenfassung

Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der das Modell nicht überwacht werden muss.
Unüberwachtes maschinelles Lernen hilft, alle Arten von unbekannten Mustern in Daten zu finden.
Clustering und Assoziation sind zwei Arten des unüberwachten Lernens.
Vier Arten von Clustering-Methoden sind 1) Exklusiv 2) Agglomerativ 3) Überlappend 4) Probabilistisch.
Wichtige Clustering-Typen sind: 1) Hierarchisches Clustering 2) K-means Clustering 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
Assoziationsregeln ermöglichen es, Assoziationen zwischen Datenobjekten in großen Datenbanken herzustellen.
Beim überwachten Lernen werden Algorithmen anhand von gelabelten Daten trainiert, während beim unüberwachten Lernen Algorithmen auf Daten angewendet werden, die nicht gelabelt sind.
Die Anomalieerkennung kann wichtige Datenpunkte in Ihrem Datensatz entdecken, was nützlich ist, um betrügerische Transaktionen zu finden.
Der größte Nachteil des unüberwachten Lernens ist, dass Sie keine genauen Informationen über die Datensortierung erhalten können.

Wzrost