Oövervakad maskininlärning: Vad är, algoritmer, exempel

Oövervakad inlärning

Oövervakad inlärning är en teknik för maskininlärning där användarna inte behöver övervaka modellen. Istället låter man modellen arbeta på egen hand för att upptäcka mönster och information som tidigare inte upptäckts. Det handlar främst om icke-märkta data.

Oövervakade inlärningsalgoritmer

Oövervakade inlärningsalgoritmer gör det möjligt för användare att utföra mer komplexa bearbetningsuppgifter jämfört med övervakad inlärning. Även om oövervakad inlärning kan vara mer oförutsägbar jämfört med andra naturliga inlärningsmetoder. Algoritmer för oövervakad inlärning omfattar klusterindelning, anomalidetektering, neurala nätverk osv.

I den här handledningen lär du dig:

Exempel på oövervakad maskininlärning
Varför oövervakad inlärning?
Typer av oövervakad inlärning
Klusterbildning
Klustertyper
Associering
Övervakad vs. Oövervakad maskininlärning
Tillämpningar av oövervakad maskininlärning
Nackdelar med oövervakad inlärning

Exempel på oövervakad maskininlärning

Låta oss, ta fallet med en bebis och hennes familjehund.

Hon känner till och identifierar denna hund. Några veckor senare tar en vän till familjen med sig en hund och försöker leka med barnet.

Baby har inte sett denna hund tidigare. Men den känner igen många egenskaper (2 öron, ögon, går på 4 ben) är som hennes sällskapshund. Hon identifierar det nya djuret som en hund. Detta är oövervakad inlärning, där man inte lär sig utan lär sig av data (i det här fallet data om en hund.) Om detta hade varit övervakad inlärning skulle familjevännen ha berättat för bebisen att det är en hund.

Varför oövervakad inlärning?

Här är de främsta skälen till att använda oövervakad inlärning:

Unsupervised machine learning hittar alla typer av okända mönster i data.
Unsupervised methods help you to find features which can be useful for categorization.
It is taken place in real time, so all the input data to be analyzed and labeled in the presence of learners.
It is easier to get unlabeled data from a computer than labeled data, which needs manual intervention.

Typer av oövervakad inlärning

Oövervakade inlärningsproblem grupperas vidare i kluster- och associationsproblem.

Klusterbildning

Klusterbildning är ett viktigt begrepp när det gäller oövervakad inlärning. Det handlar främst om att hitta en struktur eller ett mönster i en samling okategoriserade data. Klusteralgoritmer bearbetar dina data och hittar naturliga kluster (grupper) om de finns i data. Du kan också ändra hur många kluster algoritmerna ska identifiera. Det ger dig möjlighet att justera granulariteten hos dessa grupper.

Det finns olika typer av kluster som du kan använda:

Exklusiv (partitionering)

I denna klustermetod grupperas data på ett sådant sätt att en data endast kan tillhöra ett kluster.

Exempel: K-means

Agglomerativ

I denna klusterteknik är varje data ett kluster. De iterativa föreningarna mellan de två närmaste klustren minskar antalet kluster.

Exempel: Hierarkisk klustring

Överlappande

I denna teknik används fuzzy sets för att klustra data. Varje punkt kan tillhöra två eller flera kluster med olika grader av tillhörighet.

Här kommer data att associeras med ett lämpligt medlemsvärde. Exempel: Fuzzy C-Means

Probabilistisk

Denna teknik använder sannolikhetsfördelning för att skapa kluster

Exempel: Följande nyckelord

”man’s shoe.”
”women’s shoe.”
”women’s glove.”
”man’s glove.”

kan klusteras i två kategorier: ”shoe” och ”glove” eller ”man” och ”women”.

Klustertyper

Hierarkisk klustring
K-means klustring
K-NN (k närmaste grannar)
Principal Component Analysis
Singular Value Decomposition
Independent Component Analysis

Hierarkisk klustring:

Hierarkisk klustring är en algoritm som bygger upp en hierarki av kluster. Den börjar med alla data som tilldelas ett eget kluster. Här kommer två nära kluster att ingå i samma kluster. Denna algoritm slutar när det bara finns ett kluster kvar.

K-means Clustering

K innebär att det är en iterativ klusteralgoritm som hjälper dig att hitta det högsta värdet för varje iteration. Inledningsvis väljs det önskade antalet kluster ut. I den här klustermetoden måste du klustra datapunkterna i k grupper. Ett större k innebär mindre grupper med mer granularitet på samma sätt. Ett lägre k innebär större grupper med mindre granularitet.

Utfallet av algoritmen är en grupp av ”etiketter”. Den tilldelar datapunkten en av de k grupperna. I k-means klustring definieras varje grupp genom att skapa en centroid för varje grupp. Centroiderna är som klustrets hjärta, som fångar upp de punkter som ligger närmast dem och lägger till dem i klustret.

K-mean clustering definierar dessutom två undergrupper:

Agglomerativ klustring
Dendrogram

Agglomerativ klustring:

Denna typ av K-means klustring börjar med ett fast antal kluster. Den tilldelar alla data till det exakta antalet kluster. Denna klustermetod kräver inte antalet kluster K som indata. Agglomereringsprocessen börjar med att varje data bildas som ett enda kluster.

Denna metod använder något avståndsmått, minskar antalet kluster (ett i varje iteration) genom sammanslagning. Slutligen har vi ett stort kluster som innehåller alla objekt.

Dendrogram:

I Dendrogramklustermetoden representerar varje nivå ett möjligt kluster. Höjden på dendrogrammet visar graden av likhet mellan två kluster. Ju närmare botten av processen de är mer likartade kluster som är konstaterande av gruppen från dendrogram som inte är naturlig och mestadels subjektiv.

K- Närmaste grannar

K- Närmaste grannar är den enklaste av alla klassificerare för maskininlärning. Den skiljer sig från andra tekniker för maskininlärning genom att den inte producerar en modell. Det är en enkel algoritm som lagrar alla tillgängliga fall och klassificerar nya fall utifrån ett likhetsmått.

Den fungerar mycket bra när det finns ett avstånd mellan exemplen. Inlärningshastigheten är långsam när träningsmängden är stor och avståndsberäkningen är icke-trivial.

Principal Components Analysis:

Ifall du vill ha ett högre dimensionellt utrymme. Du måste välja en bas för det utrymmet och endast de 200 viktigaste värdena i den basen. Denna bas är känd som en huvudkomponent. Den undergrupp du väljer utgör är ett nytt utrymme som är litet i storlek jämfört med det ursprungliga utrymmet. Det bibehåller så mycket som möjligt av komplexiteten hos uppgifterna.

Association

Associationsregler gör det möjligt att upprätta associationer mellan dataobjekt inne i stora databaser. Denna oövervakade teknik handlar om att upptäcka intressanta relationer mellan variabler i stora databaser. Exempelvis är det mest troligt att personer som köper ett nytt hem köper nya möbler.

Andra exempel:

En undergrupp av cancerpatienter grupperade efter deras genuttrycksmätningar
Grupper av shoppare baserat på deras surf- och köphistorik
Filmgrupp genom det betyg som filmtittarna ger

Övervakad vs. Oövervakad maskininlärning

Parametrar	Övervakad teknik för maskininlärning	Oövervakad teknik för maskininlärning
Inputdata	Algoritmer tränas med hjälp av märkta data.	Algoritmerna används mot data som inte är märkta
Computational Complexity	Supervised learning är en enklare metod.	Unsupervised learning is computationally complex
Accuracy	Hög noggrannhet och pålitlig metod.	Mindre exakt och pålitlig metod.

Tillämpningar av oövervakad maskininlärning

Några tillämpningar av oövervakade tekniker för maskininlärning är:

Clustering delar automatiskt upp datasetet i grupper baserat på deras likheter
Anomalidetektion kan upptäcka ovanliga datapunkter i ditt dataset. Det är användbart för att hitta bedrägliga transaktioner
Association mining identifierar uppsättningar av objekt som ofta förekommer tillsammans i ditt dataset
Latentvariabelmodeller används ofta för förbehandling av data. Som att minska antalet funktioner i en datamängd eller sönderdela datamängden i flera komponenter

Nackdelar med oövervakad inlärning

Du kan inte få exakt information om sortering av data, och utdata eftersom data som används i oövervakad inlärning är märkta och inte kända
Mindre noggrannhet i resultaten beror på att indata inte är kända och inte märkta av människor i förväg. Detta innebär att maskinen måste göra detta själv.
De spektrala klasserna motsvarar inte alltid informationsklasserna.
Användaren måste ägna tid åt att tolka och märka de klasser som följer denna klassificering.
Klassernas spektrala egenskaper kan också förändras över tiden, så man kan inte ha samma klassinformation när man går från en bild till en annan.

Sammanfattning

Osupervised learning är en teknik för maskininlärning där man inte behöver övervaka modellen.
Unsupervised machine learning hjälper dig att hitta alla slags okända mönster i data.
Klustering och association är två typer av oövervakad inlärning.
Fyra typer av klustermetoder är 1) Exklusiva 2) Agglomerativa 3) Överlappande 4) Probabilistiska.
Viktiga klustertyper är: 1) Hierarkisk klustring 2) K-means klustring 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
Association rules allow you to establish associations among data objects inside large databases.
I övervakad inlärning tränas algoritmerna med hjälp av märkta data medan algoritmerna i oövervakad inlärning används mot data som inte är märkta.
Anomalidetektering kan upptäcka viktiga datapunkter i din datauppsättning, vilket är användbart för att hitta bedrägliga transaktioner.
Den största nackdelen med oövervakad inlärning är att du inte kan få exakt information om sortering av data.

Wzrost