Unsupervised Learning

Unsupervised Learning is een techniek voor machinaal leren waarbij de gebruikers het model niet hoeven te superviseren. In plaats daarvan wordt het model in staat gesteld zelf patronen en informatie te ontdekken die voorheen niet werden ontdekt. Het houdt zich voornamelijk bezig met ongelabelde gegevens.

Unsupervised Learning Algorithms

Unsupervised Learning Algorithms stellen gebruikers in staat complexere verwerkingstaken uit te voeren in vergelijking met supervised learning. Hoewel, kan unsupervised learning onvoorspelbaarder zijn in vergelijking met andere natuurlijke leermethoden. Niet-bewaakte leeralgoritmen omvatten clustering, anomaliedetectie, neurale netwerken, enz.

In deze tutorial, zul je leren:

  • Voorbeeld van Unsupervised Machine Learning
  • Waarom Unsupervised Learning?
  • Soorten Unsupervised Learning
  • Clustering
  • Clustering Types

  • Associatie
  • Begeleid vs. Unsupervised Machine Learning
  • Applications of unsupervised machine learning
  • Disadvantages of Unsupervised Learning

Example of Unsupervised Machine Learning

Let’s, neem het geval van een baby en haar familie hond.

Ze kent en herkent deze hond. Enkele weken later brengt een vriend van de familie een hond mee en probeert met de baby te spelen.

Baby heeft deze hond niet eerder gezien. Maar ze herkent dat veel kenmerken (2 oren, ogen, lopen op 4 poten) lijken op haar huishond. Ze identificeert het nieuwe dier als een hond. Dit is leren zonder toezicht, waarbij je geen les krijgt maar leert van de gegevens (in dit geval gegevens over een hond.) Als dit leren met toezicht was geweest, zou de huisvriend de baby hebben verteld dat het een hond is.

Waarom Unsupervised Learning?

Dit zijn de belangrijkste redenen om Unsupervised Learning te gebruiken:

  • Unsupervised machine learning vindt allerlei onbekende patronen in gegevens.
  • Unsupervised methoden helpen bij het vinden van kenmerken die nuttig kunnen zijn voor categorisatie.
  • Het vindt plaats in real time, dus alle invoergegevens worden geanalyseerd en gelabeld in de aanwezigheid van lerenden.
  • Het is gemakkelijker om ongelabelde gegevens van een computer te krijgen dan gelabelde gegevens, die handmatige tussenkomst nodig heeft.

Soorten Unsupervised Learning

Onder toezicht leren problemen verder gegroepeerd in clustering en associatie problemen.

Clustering

Clustering is een belangrijk concept als het gaat om leren zonder toezicht. Het gaat vooral om het vinden van een structuur of patroon in een verzameling ongecategoriseerde gegevens. Clustering-algoritmen verwerken uw gegevens en vinden natuurlijke clusters (groepen) als die bestaan in de gegevens. U kunt ook wijzigen hoeveel clusters de algoritmen moeten identificeren. U kunt de granulariteit van deze groepen aanpassen.

Er zijn verschillende soorten clustering die u kunt gebruiken:

Exclusief (partitionering)

Bij deze clustermethode worden de gegevens zodanig gegroepeerd dat één gegeven slechts tot één cluster kan behoren.

Voorbeeld: K-means

Agglomeratief

Bij deze clusteringstechniek is elk gegeven een cluster. De iteratieve unies tussen de twee dichtstbijzijnde clusters verminderen het aantal clusters.

Voorbeeld: Hiërarchische clustering

Overlapping

In deze techniek worden fuzzy sets gebruikt om gegevens te clusteren. Elk punt kan tot twee of meer clusters behoren met verschillende graden van lidmaatschap.

Hierbij worden de gegevens geassocieerd met een passende lidmaatschapswaarde. Voorbeeld: Fuzzy C-Means

Probabilistic

Deze techniek gebruikt een waarschijnlijkheidsverdeling om de clusters te maken

Voorbeeld: De volgende trefwoorden

  • “mannenschoen.”
  • “vrouwenschoen.”
  • “vrouwenhandschoen.”
  • “mannenhandschoen.”

kunnen worden geclusterd in twee categorieën “schoen” en “handschoen” of “man” en “vrouwen.”

Clusteringstypen

  • Hierarchische clustering
  • K-means clustering
  • K-NN (k nearest neighbors)
  • Principal Component Analysis
  • Singular Value Decomposition
  • Independent Component Analysis

Hierarchische clustering:

Hiërarchische clustering is een algoritme dat een hiërarchie van clusters opbouwt. Het begint met alle gegevens die worden toegewezen aan een cluster van hun eigen. Hier zullen twee dicht bij elkaar liggende clusters in dezelfde cluster zitten. Dit algoritme eindigt als er nog maar één cluster over is.

K-means Clustering

K betekent dat het een iteratief clustering algoritme is dat helpt bij het vinden van de hoogste waarde bij elke iteratie. In eerste instantie wordt het gewenste aantal clusters geselecteerd. In deze clustermethode moet u de gegevenspunten in k groepen clusteren. Een grotere k betekent kleinere groepen met meer granulariteit op dezelfde manier. Een lagere k betekent grotere groepen met minder granulariteit.

De output van het algoritme is een groep “labels”. Het wijst gegevenspunt toe aan een van de k groepen. Bij k-means-clustering wordt elke groep gedefinieerd door voor elke groep een centroïde te creëren. De centroïden zijn als het hart van de cluster, dat de punten die er het dichtst bij liggen, opvangt en aan de cluster toevoegt.

K-mean clustering definieert verder twee subgroepen:

  • Agglomeratieve clustering
  • Dendrogram

Agglomeratieve clustering:

Dit type van K-means clustering begint met een vast aantal clusters. Het wijst alle gegevens toe aan het exacte aantal clusters. Deze clustermethode heeft het aantal clusters K niet als invoer nodig. Het agglomeratieproces begint met het vormen van elk gegeven als een enkel cluster.

Deze methode gebruikt een of andere afstandsmaat, vermindert het aantal clusters (één in elke iteratie) door het samenvoegingsproces. Uiteindelijk hebben we één grote cluster die alle objecten bevat.

Dendrogram:

In de clustermethode van het dendrogram vertegenwoordigt elk niveau een mogelijke cluster. De hoogte van het dendrogram toont de mate van overeenkomst tussen twee clusters. Hoe dichter bij de bodem van het proces zijn ze meer gelijkaardige cluster die is het vinden van de groep uit dendrogram die niet natuurlijk en meestal subjectief.

K- Dichtstbijzijnde buren

K- Dichtstbijzijnde buur is de eenvoudigste van alle machine learning classifiers. Het verschilt van andere technieken voor machinaal leren, omdat het geen model produceert. Het is een eenvoudig algoritme dat alle beschikbare gevallen opslaat en nieuwe gevallen classificeert op basis van een gelijksoortigheidsmaat.

Het werkt heel goed als er een afstand tussen de voorbeelden is. De leersnelheid is traag wanneer de trainingsverzameling groot is, en de afstandsberekening is niet triviaal.

Principal Components Analysis:

In het geval dat u een hoger-dimensionale ruimte wilt. U moet een basis voor die ruimte kiezen en alleen de 200 belangrijkste scores van die basis. Deze basis staat bekend als een hoofdcomponent. De subset die je selecteert vormt een nieuwe ruimte die klein van omvang is vergeleken met de oorspronkelijke ruimte. Het behoudt zoveel mogelijk van de complexiteit van de gegevens.

Associatie

Associatieregels maken het mogelijk associaties te leggen tussen gegevensobjecten in grote databanken. Bij deze techniek zonder toezicht gaat het om het ontdekken van interessante relaties tussen variabelen in grote databases. Bijvoorbeeld: mensen die een nieuw huis kopen, kopen waarschijnlijk ook nieuwe meubels.

Andere voorbeelden:

  • Een subgroep van kankerpatiënten gegroepeerd op basis van hun genexpressiemetingen
  • Groepen van shopper op basis van hun browse- en aankoopgeschiedenis
  • Filmgroep op basis van de beoordeling die filmkijkers hebben gegeven

Supervised vs. Unsupervised Machine Learning

Parameters Supervised machine learning techniek Unsupervised machine learning techniek
Input Data Algoritmen worden getraind met behulp van gelabelde data. Algoritmen worden gebruikt tegen gegevens die niet gelabeld zijn
Computationele complexiteit Supervised learning is een eenvoudigere methode. Unsupervised learning is computationeel complex
Nauwkeurigheid Hoog nauwkeurige en betrouwbare methode. Minder nauwkeurige en betrouwbare methode.

Toepassingen van machine learning zonder toezicht

Enkele toepassingen van technieken voor machine learning zonder toezicht zijn:

  • Clustering splitst de dataset automatisch in groepen op basis van hun overeenkomsten
  • Anomaliedetectie kan ongebruikelijke datapunten in uw dataset ontdekken. Het is nuttig voor het vinden van frauduleuze transacties
  • Association mining identificeert sets van items die vaak samen voorkomen in uw dataset
  • Latente-variabele-modellen worden veel gebruikt voor data preprocessing. Zoals het verminderen van het aantal kenmerken in een dataset of het ontbinden van de dataset in meerdere componenten

Nadelen van Unsupervised Learning

  • U kunt geen precieze informatie krijgen over het sorteren van gegevens, en de output als gegevens gebruikt in unsupervised learning is gelabeld en niet bekend
  • Minder nauwkeurigheid van de resultaten is omdat de inputgegevens niet bekend zijn en niet van tevoren door mensen gelabeld zijn. Dit betekent dat de machine dit zelf moet doen.
  • De spectrale klassen komen niet altijd overeen met de informatieklassen.
  • De gebruiker moet tijd besteden aan het interpreteren en labelen van de klassen die op die classificatie volgen.
  • De spectrale eigenschappen van de klassen kunnen ook in de loop der tijd veranderen, zodat men niet over dezelfde klasse-informatie kan beschikken terwijl men van het ene beeld naar het andere gaat.

Samenvatting

  • Unsupervised learning is een techniek voor machinaal leren, waarbij je geen toezicht op het model hoeft te houden.
  • Unsupervised machine learning helpt je om allerlei onbekende patronen in gegevens te vinden.
  • Clustering en Associatie zijn twee soorten Unsupervised learning.
  • Vier soorten clustering methoden zijn 1) Exclusief 2) Agglomeratieve 3) Overlappende 4) Probabilistic.
  • Belangrijke clustering soorten zijn: 1) Hiërarchische clustering 2) K-means clustering 3) K-NN 4) Principale Componenten Analyse 5) Singuliere Waarde Decompositie 6) Onafhankelijke Componenten Analyse.
  • Associatieregels stellen u in staat associaties te leggen tussen data-objecten in grote databases.
  • In Supervised learning worden algoritmen getraind met behulp van gelabelde gegevens, terwijl in Unsupervised learning algoritmen worden gebruikt tegen gegevens die niet zijn gelabeld.
  • Anomaly detection kan belangrijke gegevenspunten in uw dataset ontdekken, wat nuttig is voor het vinden van frauduleuze transacties.
  • Het grootste nadeel van Unsupervised learning is dat u geen precieze informatie kunt krijgen over het sorteren van gegevens.

admin

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

lg