- Apprendimento non supervisionato
- Algoritmi di apprendimento non supervisionato
- Esempio di apprendimento automatico non supervisionato
- Perché l’apprendimento non supervisionato?
- Tipi di apprendimento non supervisionato
- Clustering
- Esclusivo (partizionamento)
- Agglomerativo
- Overlapping
- Probabilistico
- Tipi di clustering
- Clustering gerarchico:
- K-means Clustering
- Clustering agglomerativo:
- Dendrogramma:
- K- Vicini più vicini
- Analisi dei componenti principali:
- Associazione
- Supervisionato vs. Apprendimento automatico non supervisionato
- Applicazioni dell’apprendimento automatico non supervisionato
- Svantaggi dell’apprendimento non supervisionato
- Sommario
Apprendimento non supervisionato
L’apprendimento non supervisionato è una tecnica di apprendimento automatico in cui gli utenti non hanno bisogno di supervisionare il modello. Invece, permette al modello di lavorare da solo per scoprire modelli e informazioni che prima non erano stati rilevati. Si occupa principalmente dei dati non etichettati.
Algoritmi di apprendimento non supervisionato
Gli algoritmi di apprendimento non supervisionato permettono agli utenti di eseguire compiti di elaborazione più complessi rispetto all’apprendimento supervisionato. Anche se l’apprendimento non supervisionato può essere più imprevedibile rispetto ad altri metodi di apprendimento naturale. Gli algoritmi di apprendimento non supervisionato includono il clustering, il rilevamento delle anomalie, le reti neurali, ecc.
In questo tutorial, imparerai:
- Esempio di apprendimento automatico non supervisionato
- Perché l’apprendimento non supervisionato?
- Tipi di apprendimento non supervisionato
- Clustering
- Tipi di clustering
- Associazione
- Supervisionato vs. Apprendimento automatico non supervisionato
- Applicazioni dell’apprendimento automatico non supervisionato
- Svantaggi dell’apprendimento non supervisionato
Esempio di apprendimento automatico non supervisionato
Prendiamo il caso di una bambina e del suo cane di famiglia.
Lei conosce e identifica questo cane. Qualche settimana dopo, un amico di famiglia porta un cane e cerca di giocare con il bambino.
Il bambino non ha visto questo cane prima. Ma riconosce molte caratteristiche (2 orecchie, occhi, camminare su 4 gambe) sono come il suo cane domestico. Identifica il nuovo animale come un cane. Questo è un apprendimento non supervisionato, dove non si insegna ma si impara dai dati (in questo caso i dati su un cane.) Se questo fosse stato un apprendimento supervisionato, l’amico di famiglia avrebbe detto al bambino che è un cane.
Perché l’apprendimento non supervisionato?
Ecco le ragioni principali per usare l’apprendimento non supervisionato:
- L’apprendimento automatico non supervisionato trova tutti i tipi di modelli sconosciuti nei dati.
- I metodi non supervisionati aiutano a trovare le caratteristiche che possono essere utili per la categorizzazione.
- Si svolge in tempo reale, quindi tutti i dati di input da analizzare ed etichettare in presenza degli studenti.
- È più facile ottenere dati non etichettati da un computer che dati etichettati, che hanno bisogno di un intervento manuale.
Tipi di apprendimento non supervisionato
I problemi di apprendimento non supervisionato sono ulteriormente raggruppati in problemi di clustering e di associazione.
Clustering
Il clustering è un concetto importante quando si parla di apprendimento non supervisionato. Si occupa principalmente di trovare una struttura o un modello in una collezione di dati non classificati. Gli algoritmi di clustering elaboreranno i vostri dati e troveranno cluster naturali (gruppi) se esistono nei dati. È anche possibile modificare il numero di cluster che gli algoritmi dovrebbero identificare. Ti permette di regolare la granularità di questi gruppi.
Ci sono diversi tipi di clustering che puoi utilizzare:
Esclusivo (partizionamento)
In questo metodo di clustering, i dati sono raggruppati in modo tale che un dato possa appartenere a un solo cluster.
Esempio: K-means
Agglomerativo
In questa tecnica di clustering, ogni dato è un cluster. Le unioni iterative tra i due cluster più vicini riducono il numero di cluster.
Esempio: Clustering gerarchico
Overlapping
In questa tecnica, gli insiemi fuzzy sono usati per raggruppare i dati. Ogni punto può appartenere a due o più cluster con gradi di appartenenza separati.
Qui i dati saranno associati a un valore di appartenenza appropriato. Esempio: Fuzzy C-Means
Probabilistico
Questa tecnica usa una distribuzione di probabilità per creare i cluster
Esempio: Le seguenti parole chiave
- “scarpa da uomo.”
- “scarpa da donna.”
- “guanto da donna.”
- “guanto da uomo.”
possono essere raggruppate in due categorie “scarpa” e “guanto” o “uomo” e “donna.
Tipi di clustering
- Clustering gerarchico
- K-means clustering
- K-NN (k nearest neighbors)
- Analisi dei componenti principali
- Decomposizione del valore singolare
- Analisi dei componenti indipendenti
Clustering gerarchico:
Il clustering gerarchico è un algoritmo che costruisce una gerarchia di cluster. Inizia con tutti i dati che vengono assegnati a un cluster proprio. Qui, due cluster vicini saranno nello stesso cluster. Questo algoritmo termina quando rimane un solo cluster.
K-means Clustering
K significa che è un algoritmo di clustering iterativo che aiuta a trovare il valore più alto per ogni iterazione. Inizialmente, viene selezionato il numero desiderato di cluster. In questo metodo di clustering, è necessario raggruppare i punti dati in k gruppi. Un k più grande significa gruppi più piccoli con più granularità allo stesso modo. Un k più basso significa gruppi più grandi con meno granularità.
L’output dell’algoritmo è un gruppo di “etichette”. Assegna il punto dati a uno dei gruppi k. Nel clustering k-means, ogni gruppo è definito creando un centroide per ogni gruppo. I centroidi sono come il cuore del cluster, che cattura i punti più vicini a loro e li aggiunge al cluster.
Il clustering K-mean definisce ulteriormente due sottogruppi:
- Clustering agglomerativo
- Dendrogramma
Clustering agglomerativo:
Questo tipo di clustering K-means inizia con un numero fisso di cluster. Alloca tutti i dati nel numero esatto di cluster. Questo metodo di clustering non richiede il numero di cluster K come input. Il processo di agglomerazione inizia formando ogni dato come un singolo cluster.
Questo metodo usa qualche misura di distanza, riduce il numero di cluster (uno per ogni iterazione) attraverso il processo di fusione. Infine, abbiamo un grande cluster che contiene tutti gli oggetti.
Dendrogramma:
Nel metodo di clustering Dendrogram, ogni livello rappresenta un possibile cluster. L’altezza del dendrogramma mostra il livello di somiglianza tra due cluster uniti. Il più vicino al fondo del processo sono cluster più simili che è trovare il gruppo da dendrogramma che non è naturale e soprattutto soggettivo.
K- Vicini più vicini
K- vicini più vicini è il più semplice di tutti i classificatori di apprendimento automatico. Si differenzia dalle altre tecniche di apprendimento automatico, in quanto non produce un modello. È un semplice algoritmo che memorizza tutti i casi disponibili e classifica le nuove istanze sulla base di una misura di somiglianza.
Funziona molto bene quando c’è una distanza tra gli esempi. La velocità di apprendimento è lenta quando il set di allenamento è grande, e il calcolo della distanza non è banale.
Analisi dei componenti principali:
Nel caso in cui si voglia uno spazio più grande. È necessario selezionare una base per quello spazio e solo i 200 punteggi più importanti di quella base. Questa base è conosciuta come componente principale. Il sottoinsieme selezionato costituisce un nuovo spazio che è di piccole dimensioni rispetto allo spazio originale. Mantiene il più possibile la complessità dei dati.
Associazione
Le regole di associazione permettono di stabilire associazioni tra oggetti di dati in grandi basi di dati. Questa tecnica non supervisionata riguarda la scoperta di relazioni interessanti tra variabili in grandi basi di dati. Per esempio, le persone che comprano una nuova casa hanno più probabilità di comprare nuovi mobili.
Altri esempi:
- Un sottogruppo di pazienti affetti da cancro raggruppati in base alle loro misure di espressione genica
- Gruppi di acquirenti basati sulle loro storie di navigazione e acquisto
- Gruppo di film in base alla valutazione data dagli spettatori
Supervisionato vs. Apprendimento automatico non supervisionato
Parametri | Tecnica di apprendimento automatico supervisionato | Tecnica di apprendimento automatico non supervisionato |
Dati di ingresso | Gli algoritmi sono addestrati usando dati etichettati. | Gli algoritmi sono usati contro dati non etichettati |
Complessità computazionale | L’apprendimento supervisionato è un metodo più semplice. | L’apprendimento non supervisionato è computazionalmente complesso |
Precisione | Metodo altamente accurato e affidabile. | Metodo meno accurato e affidabile. |
Applicazioni dell’apprendimento automatico non supervisionato
Alcune applicazioni delle tecniche di apprendimento automatico non supervisionato sono:
- Il clustering divide automaticamente il set di dati in gruppi sulla base delle loro somiglianze
- Il rilevamento delle anomalie può scoprire punti di dati insoliti nel vostro set di dati. È utile per trovare transazioni fraudolente
- Association mining identifica insiemi di elementi che si verificano spesso insieme nel tuo set di dati
- I modelli di variabili latenti sono ampiamente utilizzati per il preprocessing dei dati. Come ridurre il numero di caratteristiche in un set di dati o decomporre il set di dati in più componenti
Svantaggi dell’apprendimento non supervisionato
- Non è possibile ottenere informazioni precise riguardo l’ordinamento dei dati, e l’output come i dati usati nell’apprendimento non supervisionato è etichettato e non conosciuto
- Meno accuratezza dei risultati è perché i dati di input non sono conosciuti e non etichettati da persone in anticipo. Questo significa che la macchina richiede di farlo da sola.
- Le classi spettrali non sempre corrispondono alle classi informative.
- L’utente deve spendere tempo per interpretare ed etichettare le classi che seguono tale classificazione.
- Le proprietà spettrali delle classi possono anche cambiare nel tempo, quindi non si possono avere le stesse informazioni sulle classi passando da un’immagine all’altra.
Sommario
- L’apprendimento non supervisionato è una tecnica di apprendimento automatico, dove non è necessario supervisionare il modello.
- L’apprendimento automatico non supervisionato aiuta a trovare tutti i tipi di modelli sconosciuti nei dati.
- Il clustering e l’associazione sono due tipi di apprendimento non supervisionato.
- I quattro tipi di metodi di clustering sono 1) Esclusivo 2) Agglomerativo 3) Sovrapposizione 4) Probabilistico.
- I tipi di clustering importanti sono: 1) Clustering gerarchico 2) Clustering K-means 3) K-NN 4) Analisi delle componenti principali 5) Decomposizione del valore singolare 6) Analisi delle componenti indipendenti.
- Le regole di associazione permettono di stabilire associazioni tra oggetti di dati all’interno di grandi database.
- Nell’apprendimento supervisionato, gli algoritmi sono addestrati usando dati etichettati mentre nell’apprendimento non supervisionato gli algoritmi sono usati contro dati che non sono etichettati.
- Il rilevamento delle anomalie può scoprire punti di dati importanti nel tuo set di dati che è utile per trovare transazioni fraudolente.
- Il più grande svantaggio dell’apprendimento non supervisionato è che non puoi ottenere informazioni precise riguardo l’ordinamento dei dati.