- Oövervakad inlärning
- Oövervakade inlärningsalgoritmer
- Exempel på oövervakad maskininlärning
- Varför oövervakad inlärning?
- Typer av oövervakad inlärning
- Klusterbildning
- Exklusiv (partitionering)
- Agglomerativ
- Överlappande
- Probabilistisk
- Klustertyper
- Hierarkisk klustring:
- K-means Clustering
- Agglomerativ klustring:
- Dendrogram:
- K- Närmaste grannar
- Principal Components Analysis:
- Association
- Övervakad vs. Oövervakad maskininlärning
- Tillämpningar av oövervakad maskininlärning
- Nackdelar med oövervakad inlärning
- Sammanfattning
Oövervakad inlärning
Oövervakad inlärning är en teknik för maskininlärning där användarna inte behöver övervaka modellen. Istället låter man modellen arbeta på egen hand för att upptäcka mönster och information som tidigare inte upptäckts. Det handlar främst om icke-märkta data.
Oövervakade inlärningsalgoritmer
Oövervakade inlärningsalgoritmer gör det möjligt för användare att utföra mer komplexa bearbetningsuppgifter jämfört med övervakad inlärning. Även om oövervakad inlärning kan vara mer oförutsägbar jämfört med andra naturliga inlärningsmetoder. Algoritmer för oövervakad inlärning omfattar klusterindelning, anomalidetektering, neurala nätverk osv.
I den här handledningen lär du dig:
- Exempel på oövervakad maskininlärning
- Varför oövervakad inlärning?
- Typer av oövervakad inlärning
- Klusterbildning
- Klustertyper
- Associering
- Övervakad vs. Oövervakad maskininlärning
- Tillämpningar av oövervakad maskininlärning
- Nackdelar med oövervakad inlärning
Exempel på oövervakad maskininlärning
Låta oss, ta fallet med en bebis och hennes familjehund.
Hon känner till och identifierar denna hund. Några veckor senare tar en vän till familjen med sig en hund och försöker leka med barnet.
Baby har inte sett denna hund tidigare. Men den känner igen många egenskaper (2 öron, ögon, går på 4 ben) är som hennes sällskapshund. Hon identifierar det nya djuret som en hund. Detta är oövervakad inlärning, där man inte lär sig utan lär sig av data (i det här fallet data om en hund.) Om detta hade varit övervakad inlärning skulle familjevännen ha berättat för bebisen att det är en hund.
Varför oövervakad inlärning?
Här är de främsta skälen till att använda oövervakad inlärning:
- Unsupervised machine learning hittar alla typer av okända mönster i data.
- Unsupervised methods help you to find features which can be useful for categorization.
- It is taken place in real time, so all the input data to be analyzed and labeled in the presence of learners.
- It is easier to get unlabeled data from a computer than labeled data, which needs manual intervention.
Typer av oövervakad inlärning
Oövervakade inlärningsproblem grupperas vidare i kluster- och associationsproblem.
Klusterbildning
Klusterbildning är ett viktigt begrepp när det gäller oövervakad inlärning. Det handlar främst om att hitta en struktur eller ett mönster i en samling okategoriserade data. Klusteralgoritmer bearbetar dina data och hittar naturliga kluster (grupper) om de finns i data. Du kan också ändra hur många kluster algoritmerna ska identifiera. Det ger dig möjlighet att justera granulariteten hos dessa grupper.
Det finns olika typer av kluster som du kan använda:
Exklusiv (partitionering)
I denna klustermetod grupperas data på ett sådant sätt att en data endast kan tillhöra ett kluster.
Exempel: K-means
Agglomerativ
I denna klusterteknik är varje data ett kluster. De iterativa föreningarna mellan de två närmaste klustren minskar antalet kluster.
Exempel: Hierarkisk klustring
Överlappande
I denna teknik används fuzzy sets för att klustra data. Varje punkt kan tillhöra två eller flera kluster med olika grader av tillhörighet.
Här kommer data att associeras med ett lämpligt medlemsvärde. Exempel: Fuzzy C-Means
Probabilistisk
Denna teknik använder sannolikhetsfördelning för att skapa kluster
Exempel: Följande nyckelord
- ”man’s shoe.”
- ”women’s shoe.”
- ”women’s glove.”
- ”man’s glove.”
kan klusteras i två kategorier: ”shoe” och ”glove” eller ”man” och ”women”.
Klustertyper
- Hierarkisk klustring
- K-means klustring
- K-NN (k närmaste grannar)
- Principal Component Analysis
- Singular Value Decomposition
- Independent Component Analysis
Hierarkisk klustring:
Hierarkisk klustring är en algoritm som bygger upp en hierarki av kluster. Den börjar med alla data som tilldelas ett eget kluster. Här kommer två nära kluster att ingå i samma kluster. Denna algoritm slutar när det bara finns ett kluster kvar.
K-means Clustering
K innebär att det är en iterativ klusteralgoritm som hjälper dig att hitta det högsta värdet för varje iteration. Inledningsvis väljs det önskade antalet kluster ut. I den här klustermetoden måste du klustra datapunkterna i k grupper. Ett större k innebär mindre grupper med mer granularitet på samma sätt. Ett lägre k innebär större grupper med mindre granularitet.
Utfallet av algoritmen är en grupp av ”etiketter”. Den tilldelar datapunkten en av de k grupperna. I k-means klustring definieras varje grupp genom att skapa en centroid för varje grupp. Centroiderna är som klustrets hjärta, som fångar upp de punkter som ligger närmast dem och lägger till dem i klustret.
K-mean clustering definierar dessutom två undergrupper:
- Agglomerativ klustring
- Dendrogram
Agglomerativ klustring:
Denna typ av K-means klustring börjar med ett fast antal kluster. Den tilldelar alla data till det exakta antalet kluster. Denna klustermetod kräver inte antalet kluster K som indata. Agglomereringsprocessen börjar med att varje data bildas som ett enda kluster.
Denna metod använder något avståndsmått, minskar antalet kluster (ett i varje iteration) genom sammanslagning. Slutligen har vi ett stort kluster som innehåller alla objekt.
Dendrogram:
I Dendrogramklustermetoden representerar varje nivå ett möjligt kluster. Höjden på dendrogrammet visar graden av likhet mellan två kluster. Ju närmare botten av processen de är mer likartade kluster som är konstaterande av gruppen från dendrogram som inte är naturlig och mestadels subjektiv.
K- Närmaste grannar
K- Närmaste grannar är den enklaste av alla klassificerare för maskininlärning. Den skiljer sig från andra tekniker för maskininlärning genom att den inte producerar en modell. Det är en enkel algoritm som lagrar alla tillgängliga fall och klassificerar nya fall utifrån ett likhetsmått.
Den fungerar mycket bra när det finns ett avstånd mellan exemplen. Inlärningshastigheten är långsam när träningsmängden är stor och avståndsberäkningen är icke-trivial.
Principal Components Analysis:
Ifall du vill ha ett högre dimensionellt utrymme. Du måste välja en bas för det utrymmet och endast de 200 viktigaste värdena i den basen. Denna bas är känd som en huvudkomponent. Den undergrupp du väljer utgör är ett nytt utrymme som är litet i storlek jämfört med det ursprungliga utrymmet. Det bibehåller så mycket som möjligt av komplexiteten hos uppgifterna.
Association
Associationsregler gör det möjligt att upprätta associationer mellan dataobjekt inne i stora databaser. Denna oövervakade teknik handlar om att upptäcka intressanta relationer mellan variabler i stora databaser. Exempelvis är det mest troligt att personer som köper ett nytt hem köper nya möbler.
Andra exempel:
- En undergrupp av cancerpatienter grupperade efter deras genuttrycksmätningar
- Grupper av shoppare baserat på deras surf- och köphistorik
- Filmgrupp genom det betyg som filmtittarna ger
Övervakad vs. Oövervakad maskininlärning
Parametrar | Övervakad teknik för maskininlärning | Oövervakad teknik för maskininlärning |
Inputdata | Algoritmer tränas med hjälp av märkta data. | Algoritmerna används mot data som inte är märkta |
Computational Complexity | Supervised learning är en enklare metod. | Unsupervised learning is computationally complex |
Accuracy | Hög noggrannhet och pålitlig metod. | Mindre exakt och pålitlig metod. |
Tillämpningar av oövervakad maskininlärning
Några tillämpningar av oövervakade tekniker för maskininlärning är:
- Clustering delar automatiskt upp datasetet i grupper baserat på deras likheter
- Anomalidetektion kan upptäcka ovanliga datapunkter i ditt dataset. Det är användbart för att hitta bedrägliga transaktioner
- Association mining identifierar uppsättningar av objekt som ofta förekommer tillsammans i ditt dataset
- Latentvariabelmodeller används ofta för förbehandling av data. Som att minska antalet funktioner i en datamängd eller sönderdela datamängden i flera komponenter
Nackdelar med oövervakad inlärning
- Du kan inte få exakt information om sortering av data, och utdata eftersom data som används i oövervakad inlärning är märkta och inte kända
- Mindre noggrannhet i resultaten beror på att indata inte är kända och inte märkta av människor i förväg. Detta innebär att maskinen måste göra detta själv.
- De spektrala klasserna motsvarar inte alltid informationsklasserna.
- Användaren måste ägna tid åt att tolka och märka de klasser som följer denna klassificering.
- Klassernas spektrala egenskaper kan också förändras över tiden, så man kan inte ha samma klassinformation när man går från en bild till en annan.
Sammanfattning
- Osupervised learning är en teknik för maskininlärning där man inte behöver övervaka modellen.
- Unsupervised machine learning hjälper dig att hitta alla slags okända mönster i data.
- Klustering och association är två typer av oövervakad inlärning.
- Fyra typer av klustermetoder är 1) Exklusiva 2) Agglomerativa 3) Överlappande 4) Probabilistiska.
- Viktiga klustertyper är: 1) Hierarkisk klustring 2) K-means klustring 3) K-NN 4) Principal Component Analysis 5) Singular Value Decomposition 6) Independent Component Analysis.
- Association rules allow you to establish associations among data objects inside large databases.
- I övervakad inlärning tränas algoritmerna med hjälp av märkta data medan algoritmerna i oövervakad inlärning används mot data som inte är märkta.
- Anomalidetektering kan upptäcka viktiga datapunkter i din datauppsättning, vilket är användbart för att hitta bedrägliga transaktioner.
- Den största nackdelen med oövervakad inlärning är att du inte kan få exakt information om sortering av data.