Usupervised Learning

Usupervised Learning er en teknik til maskinlæring, hvor brugerne ikke behøver at overvåge modellen. I stedet giver den modellen mulighed for at arbejde på egen hånd for at opdage mønstre og oplysninger, som tidligere ikke var opdaget. Den beskæftiger sig hovedsageligt med de umærkede data.

Usupervised Learning Algorithms

Usupervised Learning Algorithms giver brugerne mulighed for at udføre mere komplekse behandlingsopgaver sammenlignet med supervised learning. Selv om uovervåget læring kan være mere uforudsigelig sammenlignet med andre naturlige læringsmetoder. Uovervågede læringsalgoritmer omfatter clustering, anomalidetektion, neurale netværk osv.

I denne tutorial vil du lære:

  • Eksempel på uovervåget maskinlæring
  • Hvorfor uovervåget læring?
  • Typer af uovervåget læring
  • Clustering
  • Clusteringstyper
  • Associering
  • Overvåget vs. Uovervåget maskinlæring
  • Anvendelser af uovervåget maskinlæring
  • Ulemper ved uovervåget læring

Eksempel på uovervåget maskinlæring

Lad os, tage tilfældet med en baby og hendes familiehund.

Hun kender og identificerer denne hund. Få uger senere bringer en ven af familien en hund med og forsøger at lege med babyen.

Baby har ikke set denne hund tidligere. Men det genkender mange træk (2 ører, øjne, går på 4 ben) er ligesom hendes kæledyrs hund. Hun identificerer det nye dyr som en hund. Dette er uovervåget indlæring, hvor man ikke bliver undervist, men lærer ud fra dataene (i dette tilfælde data om en hund.) Havde der været tale om overvåget indlæring, ville familievennen have fortalt babyen, at det er en hund.

Hvorfor uovervåget læring?

Her er de vigtigste grunde til at bruge uovervåget læring:

  • Usupervised machine learning finder alle slags ukendte mønstre i data.
  • Usuperviserede metoder hjælper dig med at finde funktioner, som kan være nyttige til kategorisering.
  • Det foregår i realtid, så alle inputdata skal analyseres og mærkes i lærernes nærvær.
  • Det er nemmere at få umærkede data fra en computer end mærkede data, som kræver manuel indgriben.

Typer af uovervåget læring

Uovervåget indlæringsproblemer grupperes yderligere i klynge- og associationsproblemer.

Clustering

Clustering er et vigtigt begreb, når det drejer sig om uovervåget læring. Det drejer sig hovedsagelig om at finde en struktur eller et mønster i en samling af ikke-kategoriserede data. Clustering-algoritmer behandler dine data og finder naturlige klynger (grupper), hvis de findes i dataene. Du kan også ændre, hvor mange klynger dine algoritmer skal identificere. Det giver dig mulighed for at justere granulariteten af disse grupper.

Der er forskellige typer af klyngedannelse, som du kan anvende:

Eksklusiv (partitionering)

I denne klyngemetode grupperes Data på en sådan måde, at et data kun kan tilhøre én klynge.

Eksempel: K-means

Agglomerativ

I denne klyngeteknik er alle data en klynge. De iterative unioner mellem de to nærmeste klynger reducerer antallet af klynger.

Eksempel: Hierarkisk klyngedannelse

Overlappende

I denne teknik anvendes fuzzy sæt til at klynge data. Hvert punkt kan tilhøre to eller flere klynger med forskellige grader af tilhørsforhold.

Her vil data blive forbundet med en passende medlemskabsværdi. Eksempel: Fuzzy C-Means

Probabilistisk

Denne teknik anvender sandsynlighedsfordeling til at skabe klyngerne

Eksempel: Følgende nøgleord

  • “herresko.”
  • “damesko.”
  • “damehandske.”
  • “mandehandske.”

kan grupperes i to kategorier “sko” og “handske” eller “mand” og “kvinder”.

Clusteringstyper

  • Hierarkisk clustering
  • K-means clustering
  • K-NN (k nærmeste naboer)
  • Principal Component Analysis
  • Singular Value Decomposition
  • Independent Component Analysis

Hierarkisk clustering:

Hierarkisk clustering er en algoritme, der opbygger et hierarki af klynger. Den begynder med alle data, som tildeles en egen klynge. Her vil to tætte klynger være i den samme klynge. Denne algoritme slutter, når der kun er én klynge tilbage.

K-means Clustering

K betyder, at det er en iterativ clustering-algoritme, som hjælper dig med at finde den højeste værdi for hver iteration. I første omgang vælges det ønskede antal klynger. I denne klyngemetode skal du klynge datapunkterne i k grupper. Et større k betyder mindre grupper med mere granularitet på samme måde. Et lavere k betyder større grupper med mindre granularitet.

Outputtet af algoritmen er en gruppe af “labels”. Den tildeler datapunktet til en af de k grupper. I k-means-gruppering defineres hver gruppe ved at oprette en centroid for hver gruppe. Centroiderne er som klyngens hjerte, der opfanger de punkter, der ligger tættest på dem, og tilføjer dem til klyngen.

K-mean clustering definerer yderligere to undergrupper:

  • Agglomerative clustering
  • Dendrogram

Agglomerative clustering:

Denne type K-means clustering starter med et fast antal klynger. Den tildeler alle data til det nøjagtige antal klynger. Denne clusteringmetode kræver ikke antallet af klynger K som input. Agglomereringsprocessen starter med at danne hver data som en enkelt klynge.

Denne metode anvender en vis afstandsmåling og reducerer antallet af klynger (én i hver iteration) ved hjælp af en sammenlægningsproces. Til sidst har vi én stor klynge, der indeholder alle objekter.

Dendrogram:

I Dendrogram-grupperingsmetoden vil hvert niveau repræsentere en mulig klynge. Højden af dendrogrammet viser niveauet af lighed mellem to sammenføjede klynger. Jo tættere på bunden af processen de er mere ens klynge, som er konstatering af gruppen fra dendrogram, som ikke er naturlig og for det meste subjektiv.

K- Nærmeste naboer

K- Nærmeste naboer er den enkleste af alle klassifikatorer til maskinlæring. Den adskiller sig fra andre maskinlæringsteknikker ved, at den ikke producerer en model. Det er en simpel algoritme, som gemmer alle tilgængelige tilfælde og klassificerer nye tilfælde på baggrund af et lighedsmål.

Den fungerer meget godt, når der er en afstand mellem eksemplerne. Indlæringshastigheden er langsom, når træningsmængden er stor, og afstandsberegningen er ikke triviel.

Principal Components Analysis:

Hvis du ønsker et højere dimensionelt rum. Du skal vælge et grundlag for dette rum og kun de 200 vigtigste scoringer i dette grundlag. Dette grundlag er kendt som en hovedkomponent. Den delmængde, du vælger, udgør et nyt rum, som er lille i størrelse i forhold til det oprindelige rum. Det bevarer så meget af kompleksiteten af dataene som muligt.

Association

Associeringsregler giver dig mulighed for at etablere associationer mellem dataobjekter inde i store databaser. Denne uovervågede teknik handler om at opdage interessante relationer mellem variabler i store databaser. F.eks. er det mest sandsynligt, at folk, der køber et nyt hjem, også køber nye møbler.

Andre eksempler:

  • En undergruppe af kræftpatienter grupperet efter deres målinger af genekspression
  • Grupper af shoppere baseret på deres browsing- og købshistorik
  • Filmgruppe efter den bedømmelse, som seerne af filmene har givet

Overvåget vs. Uovervåget maskinlæring

Parametre Overvåget maskinlæringsteknik Uovervåget maskinlæringsteknik
Inputdata Algoritmer trænes ved hjælp af mærkede data. Algoritmer anvendes mod data, der ikke er mærket
Computationel kompleksitet Supervised learning er en enklere metode. Usupervised learning er beregningsteknisk kompleks
Nøjagtighed Høj præcis og troværdig metode. Mindre præcis og troværdig metode.

Anvendelser af uovervåget maskinlæring

Nogle anvendelser af uovervåget maskinlæringsteknikker er:

  • Clustering opdeler automatisk datasættet i grupper på baggrund af deres ligheder
  • Anomaliedetektion kan opdage usædvanlige datapunkter i dit datasæt. Det er nyttigt til at finde svigagtige transaktioner
  • Association mining identificerer sæt af elementer, der ofte forekommer sammen i dit datasæt
  • Latente variabelmodeller anvendes i vid udstrækning til forbehandling af data. Som at reducere antallet af funktioner i et datasæt eller dekomponere datasættet i flere komponenter

Ulemper ved uovervåget læring

  • Du kan ikke få præcise oplysninger om datasortering, og output, da data, der anvendes i uovervåget læring, er mærket og ikke kendt
  • Mindre nøjagtighed af resultaterne skyldes, at inputdataene ikke er kendt og ikke mærket af folk på forhånd. Det betyder, at maskinen kræver, at den selv gør det.
  • De spektrale klasser svarer ikke altid til informationsklasser.
  • Brugeren skal bruge tid på at fortolke og mærke de klasser, der følger denne klassificering.
  • Spektrale egenskaber for klasserne kan også ændre sig over tid, så man kan ikke have de samme klasseoplysninger, mens man går fra et billede til et andet.

Summary

  • Usupervised learning er en maskinlæringsteknik, hvor man ikke behøver at overvåge modellen.
  • Usupervised machine learning hjælper dig med at finde alle slags ukendte mønstre i data.
  • Clustering og association er to typer af uovervåget læring.
  • Fire typer af clusteringmetoder er 1) Eksklusive 2) Agglomerative 3) Overlappende 4) Probabilistiske.
  • Vigtige clusteringtyper er: 1) Hierarkisk clustering 2) K-means clustering 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
  • Association rules allow you to establish associations among data objects inside large databases.
  • I Supervised learning trænes algoritmer ved hjælp af mærkede data, mens algoritmer i Unsupervised learning anvendes mod data, der ikke er mærket.
  • Anomaliedetektion kan opdage vigtige datapunkter i dit datasæt, hvilket er nyttigt til at finde svigagtige transaktioner.
  • Den største ulempe ved Unsupervised learning er, at du ikke kan få præcise oplysninger om datasortering.

admin

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg