- Unüberwachtes Lernen
- Unüberwachte Lernalgorithmen
- Beispiel für unüberwachtes maschinelles Lernen
- Warum unüberwachtes Lernen?
- Arten des unüberwachten Lernens
- Clustering
- Ausschließlich (Partitionierung)
- Agglomerativ
- Overlapping
- Probabilistisch
- Clustertypen
- Hierarchisches Clustering:
- K-means Clustering
- Agglomeratives Clustering:
- Dendrogramm:
- K- Nächste Nachbarn
- Principal Components Analysis:
- Assoziation
- Supervised vs. Unüberwachtes maschinelles Lernen
- Anwendungen des unüberwachten maschinellen Lernens
- Nachteile des unüberwachten Lernens
- Zusammenfassung
Unüberwachtes Lernen
Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der der Benutzer das Modell nicht überwachen muss. Stattdessen lässt es das Modell selbständig arbeiten, um Muster und Informationen zu entdecken, die zuvor unentdeckt waren. Sie befasst sich hauptsächlich mit unmarkierten Daten.
Unüberwachte Lernalgorithmen
Unüberwachte Lernalgorithmen ermöglichen es dem Benutzer, im Vergleich zum überwachten Lernen komplexere Verarbeitungsaufgaben durchzuführen. Allerdings kann unüberwachtes Lernen im Vergleich zu anderen natürlichen Lernmethoden unberechenbarer sein. Zu den unüberwachten Lernalgorithmen gehören Clustering, Anomalieerkennung, neuronale Netze usw.
In diesem Tutorium werden Sie lernen:
- Beispiel für unüberwachtes maschinelles Lernen
- Warum unüberwachtes Lernen?
- Arten des unüberwachten Lernens
- Clustering
- Clustering-Typen
- Assoziation
- Überwachtes vs. unüberwachtes maschinelles Lernen
- Unüberwachtes maschinelles Lernen
- Anwendungen des unüberwachten maschinellen Lernens
- Nachteile des unüberwachten Lernens
Beispiel für unüberwachtes maschinelles Lernen
Nehmen wir den Fall eines Babys und des Familienhundes.
Sie kennt und identifiziert diesen Hund. Ein paar Wochen später bringt ein Freund der Familie einen Hund mit und versucht, mit dem Baby zu spielen.
Das Baby hat diesen Hund vorher nicht gesehen. Aber es erkennt, dass viele Merkmale (2 Ohren, Augen, Laufen auf 4 Beinen) wie ihr Haushund sind. Sie identifiziert das neue Tier als Hund. Das ist unüberwachtes Lernen, bei dem man nicht belehrt wird, sondern aus den Daten (in diesem Fall Daten über einen Hund) lernt. Wäre dies überwachtes Lernen gewesen, hätte der Familienfreund dem Baby gesagt, dass es ein Hund ist.
Warum unüberwachtes Lernen?
Hier sind die Hauptgründe für die Verwendung von unüberwachtem Lernen:
- Unüberwachtes maschinelles Lernen findet alle Arten von unbekannten Mustern in Daten.
- Unüberwachte Methoden helfen, Merkmale zu finden, die für die Kategorisierung nützlich sein können.
- Es findet in Echtzeit statt, so dass alle Eingabedaten in Anwesenheit der Lernenden analysiert und beschriftet werden.
- Es ist einfacher, unbeschriftete Daten von einem Computer zu erhalten als beschriftete Daten, die einen manuellen Eingriff erfordern.
Arten des unüberwachten Lernens
Unüberwachte Lernprobleme werden weiter in Clustering- und Assoziationsprobleme unterteilt.
Clustering
Clustering ist ein wichtiges Konzept, wenn es um unüberwachtes Lernen geht. Es befasst sich hauptsächlich damit, eine Struktur oder ein Muster in einer Sammlung von nicht kategorisierten Daten zu finden. Clustering-Algorithmen verarbeiten Ihre Daten und finden natürliche Cluster (Gruppen), wenn sie in den Daten vorhanden sind. Sie können auch festlegen, wie viele Cluster die Algorithmen identifizieren sollen. So können Sie die Granularität dieser Gruppen anpassen.
Es gibt verschiedene Arten von Clustern, die Sie verwenden können:
Ausschließlich (Partitionierung)
Bei dieser Clustering-Methode werden die Daten so gruppiert, dass sie nur zu einem Cluster gehören können.
Beispiel: K-means
Agglomerativ
Bei dieser Clustermethode sind alle Daten ein Cluster. Die iterativen Vereinigungen zwischen den beiden nächstgelegenen Clustern reduzieren die Anzahl der Cluster.
Beispiel: Hierarchisches Clustering
Overlapping
In dieser Technik werden Fuzzy-Sets zum Clustern von Daten verwendet. Jeder Punkt kann zu zwei oder mehr Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören.
Hier werden die Daten mit einem geeigneten Zugehörigkeitswert verbunden. Beispiel: Fuzzy C-Means
Probabilistisch
Diese Technik verwendet eine Wahrscheinlichkeitsverteilung, um die Cluster zu erstellen
Beispiel: Folgende Schlüsselwörter
- „Männerschuh.“
- „Frauenschuh.“
- „Frauenhandschuh.“
- „Männerhandschuh.“
können in zwei Kategorien „Schuh“ und „Handschuh“ oder „Mann“ und „Frauen“ geclustert werden.
Clustertypen
- Hierarchisches Clustering
- K-Mittelwert-Clustering
- K-NN (k nächste Nachbarn)
- Hauptkomponentenanalyse
- Singulärwertzerlegung
- Independent Component Analysis
Hierarchisches Clustering:
Hierarchisches Clustering ist ein Algorithmus, der eine Hierarchie von Clustern aufbaut. Er beginnt mit allen Daten, die einem eigenen Cluster zugewiesen werden. Hier werden zwei nahe beieinander liegende Cluster im selben Cluster sein. Dieser Algorithmus endet, wenn es nur noch einen Cluster gibt.
K-means Clustering
K bedeutet, dass es sich um einen iterativen Clustering-Algorithmus handelt, der bei jeder Iteration hilft, den höchsten Wert zu finden. Zu Beginn wird die gewünschte Anzahl von Clustern ausgewählt. Bei dieser Clustering-Methode müssen Sie die Datenpunkte in k Gruppen einteilen. Ein größeres k bedeutet kleinere Gruppen mit mehr Granularität in gleicher Weise. Ein niedrigeres k bedeutet größere Gruppen mit geringerer Granularität.
Die Ausgabe des Algorithmus ist eine Gruppe von „Labels“. Er ordnet die Datenpunkte einer der k Gruppen zu. Beim k-means Clustering wird jede Gruppe definiert, indem für jede Gruppe ein Zentroid erstellt wird. Die Zentroide sind wie das Herz des Clusters, das die Punkte erfasst, die ihnen am nächsten sind, und sie dem Cluster hinzufügt.
Beim K-Mittelwert-Clustering werden außerdem zwei Untergruppen definiert:
- Agglomeratives Clustering
- Dendrogramm
Agglomeratives Clustering:
Dieser Typ des K-means Clustering beginnt mit einer festen Anzahl von Clustern. Sie teilt alle Daten in genau diese Anzahl von Clustern ein. Diese Clustermethode benötigt die Anzahl der Cluster K nicht als Eingabe. Der Agglomerationsprozess beginnt mit der Bildung eines einzelnen Clusters aus allen Daten.
Diese Methode verwendet ein Abstandsmaß und reduziert die Anzahl der Cluster (einen in jeder Iteration) durch einen Zusammenführungsprozess. Am Ende haben wir einen großen Cluster, der alle Objekte enthält.
Dendrogramm:
Bei der Dendrogramm-Clustermethode stellt jede Ebene einen möglichen Cluster dar. Die Höhe des Dendrogramms zeigt den Grad der Ähnlichkeit zwischen zwei verbundenen Clustern. Je näher am unteren Ende des Prozesses sie sind mehr ähnliche Cluster, die das Finden der Gruppe von Dendrogramm, die nicht natürlich und meist subjektiv ist.
K- Nächste Nachbarn
K- Nächste Nachbarn ist der einfachste aller maschinellen Lernklassifikatoren. Er unterscheidet sich von anderen maschinellen Lernverfahren dadurch, dass er kein Modell erstellt. Es handelt sich um einen einfachen Algorithmus, der alle verfügbaren Fälle speichert und neue Instanzen auf der Grundlage eines Ähnlichkeitsmaßes klassifiziert.
Es funktioniert sehr gut, wenn es einen Abstand zwischen den Beispielen gibt. Die Lerngeschwindigkeit ist langsam, wenn die Trainingsmenge groß ist, und die Abstandsberechnung ist nicht trivial.
Principal Components Analysis:
Wenn Sie einen höherdimensionalen Raum wollen. Man muss eine Basis für diesen Raum und nur die 200 wichtigsten Werte dieser Basis auswählen. Diese Basis wird als Hauptkomponente bezeichnet. Die von Ihnen ausgewählte Teilmenge bildet einen neuen Raum, der im Vergleich zum ursprünglichen Raum klein ist. Dabei bleibt die Komplexität der Daten so weit wie möglich erhalten.
Assoziation
Assoziationsregeln ermöglichen es, Assoziationen zwischen Datenobjekten in großen Datenbanken herzustellen. Bei dieser unüberwachten Technik geht es darum, interessante Beziehungen zwischen Variablen in großen Datenbanken zu entdecken. Zum Beispiel kaufen Personen, die ein neues Haus kaufen, mit hoher Wahrscheinlichkeit auch neue Möbel.
Andere Beispiele:
- Eine Untergruppe von Krebspatienten, die anhand ihrer Genexpressionsmessungen gruppiert werden
- Gruppen von Käufern auf der Grundlage ihrer Browsing- und Kaufhistorie
- Filmgruppen anhand der von den Zuschauern abgegebenen Bewertungen
Supervised vs. Unüberwachtes maschinelles Lernen
Parameter | Technik des überwachten maschinellen Lernens | Technik des unüberwachten maschinellen Lernens |
Eingabedaten | Algorithmen werden mit markierten Daten trainiert. | Algorithmen werden mit Daten trainiert, die nicht gekennzeichnet sind |
Rechenaufwand | Überwachtes Lernen ist eine einfachere Methode. | Unüberwachtes Lernen ist rechnerisch komplex |
Genauigkeit | Hochgenaue und vertrauenswürdige Methode. | wenig präzise und vertrauenswürdige Methode. |
Anwendungen des unüberwachten maschinellen Lernens
Einige Anwendungen der unüberwachten maschinellen Lerntechniken sind:
- Clustering unterteilt den Datensatz automatisch in Gruppen auf der Grundlage ihrer Ähnlichkeiten
- Anomalieerkennung kann ungewöhnliche Datenpunkte in Ihrem Datensatz entdecken. Es ist nützlich, um betrügerische Transaktionen aufzuspüren
- Association Mining identifiziert Gruppen von Elementen, die in Ihrem Datensatz häufig zusammen auftreten
- Latente Variablenmodelle werden häufig für die Datenvorverarbeitung verwendet. So wird z. B. die Anzahl der Merkmale in einem Datensatz reduziert oder der Datensatz in mehrere Komponenten zerlegt
Nachteile des unüberwachten Lernens
- Sie können keine präzisen Informationen über die Datensortierung erhalten, und die Ausgabe als Daten, die beim unüberwachten Lernen verwendet werden, ist etikettiert und nicht bekannt
- Die Genauigkeit der Ergebnisse ist geringer, weil die Eingabedaten nicht bekannt sind und nicht von Menschen im Voraus etikettiert werden. Das bedeutet, dass die Maschine dies selbst tun muss.
- Die Spektralklassen entsprechen nicht immer den Informationsklassen.
- Der Benutzer muss Zeit aufwenden, um die Klassen, die dieser Klassifizierung folgen, zu interpretieren und zu beschriften.
- Die spektralen Eigenschaften der Klassen können sich auch im Laufe der Zeit ändern, so dass man beim Wechsel von einem Bild zum anderen nicht dieselben Klasseninformationen hat.
Zusammenfassung
- Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der das Modell nicht überwacht werden muss.
- Unüberwachtes maschinelles Lernen hilft, alle Arten von unbekannten Mustern in Daten zu finden.
- Clustering und Assoziation sind zwei Arten des unüberwachten Lernens.
- Vier Arten von Clustering-Methoden sind 1) Exklusiv 2) Agglomerativ 3) Überlappend 4) Probabilistisch.
- Wichtige Clustering-Typen sind: 1) Hierarchisches Clustering 2) K-means Clustering 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
- Assoziationsregeln ermöglichen es, Assoziationen zwischen Datenobjekten in großen Datenbanken herzustellen.
- Beim überwachten Lernen werden Algorithmen anhand von gelabelten Daten trainiert, während beim unüberwachten Lernen Algorithmen auf Daten angewendet werden, die nicht gelabelt sind.
- Die Anomalieerkennung kann wichtige Datenpunkte in Ihrem Datensatz entdecken, was nützlich ist, um betrügerische Transaktionen zu finden.
- Der größte Nachteil des unüberwachten Lernens ist, dass Sie keine genauen Informationen über die Datensortierung erhalten können.