Învățare nesupravegheată

Învățarea nesupravegheată este o tehnică de învățare automată în care utilizatorii nu au nevoie să supravegheze modelul. În schimb, aceasta permite modelului să lucreze de unul singur pentru a descoperi tipare și informații care nu au fost detectate anterior. Ea se ocupă în principal de datele neetichetate.

Algoritmi de învățare nesupravegheată

Algoritmii de învățare nesupravegheată permit utilizatorilor să efectueze sarcini de procesare mai complexe în comparație cu învățarea supravegheată. Deși, învățarea nesupravegheată poate fi mai imprevizibilă în comparație cu alte metode de învățare naturală. Algoritmii de învățare nesupravegheată includ gruparea, detectarea anomaliilor, rețelele neuronale etc.

În acest tutorial, veți învăța:

  • Exemplu de învățare automată nesupravegheată
  • De ce învățare nesupravegheată?
  • Tipuri de învățare nesupravegheată
  • Clustering
  • Tipuri de clustering
  • Asociere
  • Asociere
  • Supravegheat vs. Învățarea automată nesupravegheată
  • Aplicații ale învățării automate nesupravegheate
  • Dezavantaje ale învățării nesupravegheate

Exemplu de învățare automată nesupravegheată

Să luăm, de exemplu, cazul unui bebeluș și al câinelui familiei sale.

Ea cunoaște și identifică acest câine. Câteva săptămâni mai târziu, un prieten de familie aduce cu el un câine și încearcă să se joace cu copilul.

Bebelușul nu a văzut acest câine mai devreme. Dar recunoaște că multe trăsături (2 urechi, ochi, mers pe 4 picioare) sunt ca și câinele ei de companie. Ea identifică noul animal ca fiind un câine. Aceasta este învățare nesupravegheată, în care nu ești învățat, ci înveți din date (în acest caz, date despre un câine.) Dacă ar fi fost vorba de învățare supravegheată, prietenul de familie i-ar fi spus bebelușului că este un câine.

De ce învățare nesupravegheată?

Iată, sunt principalele motive pentru utilizarea învățării nesupravegheate:

  • Învățarea automată nesupravegheată găsește tot felul de modele necunoscute în date.
  • Metodele nesupravegheate vă ajută să găsiți caracteristici care pot fi utile pentru categorizare.
  • Se desfășoară în timp real, astfel încât toate datele de intrare să fie analizate și etichetate în prezența cursanților.
  • Este mai ușor să obțineți date neetichetate de la un computer decât date etichetate, care necesită intervenție manuală.

Tipuri de învățare nesupravegheată

Problemele de învățare nesupravegheată se grupează în continuare în probleme de grupare și probleme de asociere.

Clusterizarea

Clusterizarea este un concept important când vine vorba de învățarea nesupravegheată. Se ocupă în principal de găsirea unei structuri sau a unui model într-o colecție de date necategorizate. Algoritmii de clusterizare vor procesa datele și vor găsi clustere (grupuri) naturale, dacă acestea există în date. De asemenea, puteți modifica numărul de clustere pe care algoritmii ar trebui să le identifice. Acesta vă permite să ajustați granularitatea acestor grupuri.

Există diferite tipuri de clusterizare pe care le puteți utiliza:

Exclusivitate (partiționare)

În această metodă de grupare, datele sunt grupate în așa fel încât o dată poate aparține unui singur cluster.

Exemplu: K-means

Agglomerativ

În această tehnică de clusterizare, fiecare dată este un cluster. Uniunile iterative între cele două clustere cele mai apropiate reduc numărul de clustere.

Exemplu: Gruparea ierarhică

Suprapunere

În această tehnică, se utilizează seturi fuzzy pentru a grupa datele. Fiecare punct poate aparține la două sau mai multe clustere cu grade distincte de apartenență.

În acest caz, datele vor fi asociate cu o valoare de apartenență corespunzătoare. Exemplu: Fuzzy C-Means

Probabilistic

Această tehnică utilizează distribuția de probabilitate pentru a crea clusterele

Exemplu: Următoarele cuvinte cheie

  • „pantof de bărbat.”
  • „pantof de femeie.”
  • „mănușă de femeie.”
  • „mănușă de bărbat.”

pot fi grupate în două categorii „pantof” și „mănușă” sau „bărbat” și „femeie”.

Tipuri de grupare

  • Grupare ierarhică
  • Grupare K-means
  • K-NN (k vecini mai apropiați)
  • Analiza componentelor principale
  • Descompunerea valorii singulare
  • Analiza componentelor independente

Grupare ierarhică:

Clasificarea ierarhică este un algoritm care construiește o ierarhie de clustere. Acesta începe cu toate datele care sunt atribuite unui cluster propriu. Aici, două clustere apropiate se vor afla în același cluster. Acest algoritm se termină atunci când nu mai există decât un singur cluster.

K-means Clustering

K înseamnă că este un algoritm de clusterizare iterativ care vă ajută să găsiți cea mai mare valoare pentru fiecare iterație. Inițial, se selectează numărul dorit de clustere. În această metodă de clusterizare, trebuie să grupați punctele de date în k grupuri. Un k mai mare înseamnă grupuri mai mici, cu o granularitate mai mare în același mod. Un k mai mic înseamnă grupuri mai mari cu o granularitate mai mică.

Legătura de ieșire a algoritmului este un grup de „etichete”. Acesta atribuie punctul de date unuia dintre cele k grupuri. În gruparea k-means, fiecare grup este definit prin crearea unui centroid pentru fiecare grup. Centroizii sunt ca o inimă a clusterului, care captează punctele cele mai apropiate de ei și le adaugă la cluster.

K-mean clustering definește în continuare două subgrupuri:

  • Gruparea aglomerativă
  • Dendrograma

Gruparea aglomerativă:

Acest tip de grupare K-means începe cu un număr fix de clustere. Acesta alocă toate datele în numărul exact de clustere. Această metodă de clusterizare nu necesită ca intrare numărul de clustere K. Procesul de aglomerare începe prin formarea fiecărei date ca un singur cluster.

Această metodă utilizează o anumită măsură de distanță, reduce numărul de clustere (unul la fiecare iterație) prin procesul de fuziune. În cele din urmă, avem un singur cluster mare care conține toate obiectele.

Dendrogramă:

În metoda de grupare Dendrogramă, fiecare nivel va reprezenta un cluster posibil. Înălțimea dendrogramei arată nivelul de similaritate dintre două clustere de îmbinare. Cu cât sunt mai aproape de partea de jos a procesului, cu atât sunt mai asemănătoare clusterele, ceea ce reprezintă constatarea grupului din dendrogramă, care nu este naturală și în mare parte subiectivă.

K- Vecinii cei mai apropiați

K- vecinul cel mai apropiat este cel mai simplu dintre toți clasificatorii de învățare automată. Se deosebește de alte tehnici de învățare automată, prin faptul că nu produce un model. Este un algoritm simplu care stochează toate cazurile disponibile și clasifică noile cazuri pe baza unei măsuri de similaritate.

Funcționează foarte bine atunci când există o distanță între exemple. Viteza de învățare este lentă atunci când setul de instruire este mare, iar calculul distanței nu este trivial.

Analiza componentelor principale:

În cazul în care se dorește un spațiu cu dimensiuni mai mari. Trebuie să selectați o bază pentru acel spațiu și numai cele mai importante 200 de scoruri din acea bază. Această bază este cunoscută ca o componentă principală. Subansamblul pe care îl selectați constituie un nou spațiu care este de dimensiuni mici în comparație cu spațiul original. Acesta păstrează cât mai mult posibil din complexitatea datelor.

Asociere

Regulele de asociere vă permit să stabiliți asociații între obiectele de date în interiorul unor baze de date mari. Această tehnică nesupravegheată se referă la descoperirea unor relații interesante între variabilele din bazele de date mari. De exemplu, persoanele care cumpără o casă nouă au cele mai multe șanse să cumpere mobilă nouă.

Alte exemple:

  • Un subgrup de pacienți bolnavi de cancer grupați în funcție de măsurătorile lor de expresie genetică
  • Grupuri de cumpărători pe baza istoricului lor de navigare și cumpărare
  • Grup de filme pe baza ratingului acordat de spectatorii de filme

Supravegheat vs. Învățarea automată nesupravegheată

Parametrii Tehnica învățării automate supravegheate Tehnica învățării automate nesupravegheate
Date de intrare Algoritmii sunt antrenați folosind date etichetate. Algoritmii sunt utilizați împotriva datelor care nu sunt etichetate
Complexitate computațională Învățarea supervizată este o metodă mai simplă. Învățarea nesupravegheată este complexă din punct de vedere computațional
Acuratețe Metodă extrem de precisă și de încredere. Metodă mai puțin precisă și demnă de încredere.

Aplicații ale învățării automate nesupravegheate

Câteva aplicații ale tehnicilor de învățare automată nesupravegheată sunt:

  • Clustering împarte automat setul de date în grupuri pe baza similitudinilor lor
  • Detecția anomaliilor poate descoperi puncte de date neobișnuite în setul dvs. de date. Este utilă pentru găsirea tranzacțiilor frauduloase
  • Explorarea asociațiilor identifică seturi de elemente care apar adesea împreună în setul dvs. de date
  • Modelele de variabile latente sunt utilizate pe scară largă pentru preprocesarea datelor. Cum ar fi reducerea numărului de caracteristici într-un set de date sau descompunerea setului de date în mai multe componente

Dezavantaje ale învățării nesupravegheate

  • Nu puteți obține informații precise cu privire la sortarea datelor și la ieșire, deoarece datele utilizate în învățarea nesupravegheată sunt etichetate și nu sunt cunoscute
  • Prea puțină acuratețe a rezultatelor se datorează faptului că datele de intrare nu sunt cunoscute și nu sunt etichetate în prealabil de către oameni. Aceasta înseamnă că mașina necesită să facă acest lucru singură.
  • Classele spectrale nu corespund întotdeauna claselor informaționale.
  • Utilizatorul trebuie să petreacă timp interpretând și etichetând clasele care urmează acestei clasificări.
  • Proprietățile spectrale ale claselor se pot, de asemenea, schimba în timp, astfel încât nu puteți avea aceleași informații despre clase în timp ce treceți de la o imagine la alta.

Rezumat

  • Învățarea nesupravegheată este o tehnică de învățare automată, în care nu este nevoie să supervizați modelul.
  • Învățarea automată nesupravegheată vă ajută să găsiți tot felul de modele necunoscute în date.
  • Clustering și Association sunt două tipuri de învățare nesupravegheată.
  • Cele patru tipuri de metode de clusterizare sunt: 1) Exclusive 2) Agglomerative 3) Overlapping 4) Probabilistic.
  • Tipurile importante de clusterizare sunt: 1) Gruparea ierarhică 2) Gruparea K-means 3) K-NN 4) Analiza componentelor principale 5) Descompunerea valorilor singulare 6) Analiza componentelor independente.
  • Reguli de asociere permit stabilirea de asocieri între obiectele de date în interiorul unor baze de date mari.
  • În învățarea supravegheată, algoritmii sunt antrenați folosind date etichetate, în timp ce în învățarea nesupravegheată algoritmii sunt folosiți împotriva datelor care nu sunt etichetate.
  • Detecția anomaliilor poate descoperi puncte de date importante în setul dvs. de date, ceea ce este util pentru a găsi tranzacții frauduloase.
  • Cel mai mare dezavantaj al învățării nesupravegheate este că nu puteți obține informații precise cu privire la sortarea datelor.

admin

Lasă un răspuns

Adresa ta de email nu va fi publicată.

lg