Aprendizaje no supervisado

El aprendizaje no supervisado es una técnica de aprendizaje automático en la que los usuarios no necesitan supervisar el modelo. En su lugar, permite que el modelo trabaje por sí mismo para descubrir patrones e información que antes no se había detectado. Se ocupa principalmente de los datos no etiquetados.

Algoritmos de aprendizaje no supervisado

Los algoritmos de aprendizaje no supervisado permiten a los usuarios realizar tareas de procesamiento más complejas en comparación con el aprendizaje supervisado. Aunque, el aprendizaje no supervisado puede ser más impredecible en comparación con otros métodos de aprendizaje natural. Los algoritmos de aprendizaje no supervisado incluyen la agrupación, la detección de anomalías, las redes neuronales, etc.

En este tutorial, usted aprenderá:

  • Ejemplo de aprendizaje automático no supervisado
  • ¿Por qué el aprendizaje no supervisado?
  • Tipos de aprendizaje no supervisado
  • Clustering
  • Tipos de Clustering
  • Asociación
  • Supervisado vs. No supervisado. Aprendizaje automático no supervisado
  • Aplicaciones del aprendizaje automático no supervisado
  • Desventajas del aprendizaje no supervisado

Ejemplo de aprendizaje automático no supervisado

Tomemos el caso de un bebé y el perro de su familia.

Ella conoce e identifica a este perro. Pocas semanas después un amigo de la familia trae un perro e intenta jugar con el bebé.

El bebé no ha visto antes a este perro. Pero reconoce muchos rasgos (2 orejas, ojos, caminar sobre 4 patas) son como su perro mascota. Identifica al nuevo animal como un perro. Esto es un aprendizaje no supervisado, en el que no se le enseña sino que aprende de los datos (en este caso datos sobre un perro.) Si hubiera sido un aprendizaje supervisado, el amigo de la familia le habría dicho al bebé que es un perro.

¿Por qué el aprendizaje no supervisado?

Aquí, hay razones principales para usar el aprendizaje no supervisado:

  • El aprendizaje automático no supervisado encuentra todo tipo de patrones desconocidos en los datos.
  • Los métodos no supervisados ayudan a encontrar características que pueden ser útiles para la categorización.
  • Se lleva a cabo en tiempo real, por lo que todos los datos de entrada para ser analizados y etiquetados en presencia de los alumnos.
  • Es más fácil obtener datos sin etiquetar de un ordenador que los datos etiquetados, que necesitan la intervención manual.

Tipos de aprendizaje no supervisado

Los problemas de aprendizaje no supervisado se agrupan a su vez en problemas de agrupación y asociación.

Clustering

El clustering es un concepto importante cuando se trata de aprendizaje no supervisado. Se ocupa principalmente de encontrar una estructura o un patrón en una colección de datos no categorizados. Los algoritmos de clustering procesarán sus datos y encontrarán clusters naturales (grupos) si existen en los datos. También puede modificar el número de clusters que sus algoritmos deben identificar. Le permite ajustar la granularidad de estos grupos.

Hay diferentes tipos de clustering que puedes utilizar:

Exclusivo (partición)

En este método de clustering, los datos se agrupan de tal manera que un dato puede pertenecer a un solo cluster.

Ejemplo: K-means

Aglomerativo

En esta técnica de clustering, cada dato es un cluster. Las uniones iterativas entre los dos clusters más cercanos reducen el número de clusters.

Ejemplo: Clustering jerárquico

Superposición

En esta técnica se utilizan conjuntos difusos para agrupar los datos. Cada punto puede pertenecer a dos o más clusters con grados de pertenencia distintos.

Aquí, los datos se asociarán con un valor de pertenencia apropiado. Ejemplo: Fuzzy C-Means

Probabilística

Esta técnica utiliza la distribución de probabilidad para crear los clusters

Ejemplo: Las siguientes palabras clave

  • «zapato de hombre.»
  • «zapato de mujer.»
  • «guante de mujer.»
  • «guante de hombre.»

pueden agruparse en dos categorías «zapato» y «guante» o «hombre» y «mujer».

Tipos de agrupación

  • Clasificación jerárquica
  • Clasificación K-means
  • K-NN (k vecinos más cercanos)
  • Análisis de componentes principales
  • Descomposición del valor singular
  • Análisis de componentes independientes

Clasificación jerárquica:

El clustering jerárquico es un algoritmo que construye una jerarquía de clusters. Comienza con todos los datos que se asignan a un clúster propio. Aquí, dos clústeres cercanos van a estar en el mismo clúster. Este algoritmo termina cuando sólo queda un clúster.

K-means Clustering

K significa que es un algoritmo de clustering iterativo que ayuda a encontrar el valor más alto en cada iteración. Inicialmente, se selecciona el número deseado de clusters. En este método de clustering, es necesario agrupar los puntos de datos en k grupos. Un k mayor significa grupos más pequeños con más granularidad de la misma manera. Un k menor significa grupos más grandes con menos granularidad.

La salida del algoritmo es un grupo de «etiquetas». Asigna el punto de datos a uno de los k grupos. En el clustering de k-means, cada grupo se define creando un centroide para cada grupo. Los centroides son como el corazón del cluster, que captura los puntos más cercanos a ellos y los añade al cluster.

El clustering K-mean define además dos subgrupos:

  • Clustering aglomerativo
  • Dendrograma

Clustering aglomerativo:

Este tipo de clustering K-means comienza con un número fijo de clusters. Asigna todos los datos al número exacto de conglomerados. Este método de clustering no requiere el número de clusters K como entrada. El proceso de aglomeración comienza formando cada dato como un único cluster.

Este método utiliza alguna medida de distancia, reduce el número de clusters (uno en cada iteración) mediante el proceso de fusión. Por último, tenemos un gran cluster que contiene todos los objetos.

Dendrograma:

En el método de clustering Dendrograma, cada nivel representará un posible cluster. La altura del dendrograma muestra el nivel de similitud entre dos clusters unidos. Cuanto más cerca de la parte inferior del proceso son más similares clúster que es la búsqueda del grupo de dendrograma que no es natural y sobre todo subjetiva.

K- Vecinos más cercanos

K- vecino más cercano es el más simple de todos los clasificadores de aprendizaje automático. Se diferencia de otras técnicas de aprendizaje automático en que no produce un modelo. Es un algoritmo simple que almacena todos los casos disponibles y clasifica las nuevas instancias basándose en una medida de similitud.

Funciona muy bien cuando hay distancia entre los ejemplos. La velocidad de aprendizaje es lenta cuando el conjunto de entrenamiento es grande, y el cálculo de la distancia no es trivial.

Análisis de componentes principales:

En caso de querer un espacio de mayor dimensión. Hay que seleccionar una base para ese espacio y sólo las 200 puntuaciones más importantes de esa base. Esta base se conoce como componente principal. El subconjunto que se selecciona constituye un nuevo espacio de tamaño reducido en comparación con el espacio original. Mantiene la mayor parte posible de la complejidad de los datos.

Asociación

Las reglas de asociación permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos. Esta técnica no supervisada consiste en descubrir relaciones interesantes entre variables en grandes bases de datos. Por ejemplo, las personas que compran una casa nueva tienen más probabilidades de comprar muebles nuevos.

Otros ejemplos:

  • Un subgrupo de pacientes con cáncer agrupados por sus medidas de expresión genética
  • Grupos de compradores basados en sus historiales de navegación y compra
  • Grupo de películas por la calificación dada por los espectadores de las mismas

Aprendizaje automático supervisado vs. no supervisado. Aprendizaje automático no supervisado

Parámetros Técnica de aprendizaje automático supervisado Técnica de aprendizaje automático no supervisado
Datos de entrada Los algoritmos se entrenan utilizando datos etiquetados. Los algoritmos se utilizan con datos no etiquetados
Complejidad computacional El aprendizaje supervisado es un método más sencillo. El aprendizaje no supervisado es computacionalmente complejo
Exactitud Método muy preciso y fiable. Método menos preciso y fiable.

Aplicaciones del aprendizaje automático no supervisado

Algunas aplicaciones de las técnicas de aprendizaje automático no supervisado son:

  • El clustering divide automáticamente el conjunto de datos en grupos basados en sus similitudes
  • La detección de anomalías puede descubrir puntos de datos inusuales en su conjunto de datos. Es útil para encontrar transacciones fraudulentas
  • La minería de asociación identifica conjuntos de elementos que suelen aparecer juntos en el conjunto de datos
  • Los modelos de variables latentes se utilizan ampliamente para el preprocesamiento de datos. Como la reducción del número de características en un conjunto de datos o la descomposición del conjunto de datos en múltiples componentes

Desventajas del aprendizaje no supervisado

  • No se puede obtener información precisa con respecto a la clasificación de los datos, y la salida como los datos utilizados en el aprendizaje no supervisado son etiquetados y no se conocen
  • La menor precisión de los resultados se debe a que los datos de entrada no se conocen y no son etiquetados por las personas de antemano. Esto significa que la máquina requiere para hacer esto por sí mismo.
  • Las clases espectrales no siempre se corresponden con las clases informativas.
  • El usuario necesita dedicar tiempo a interpretar y etiquetar las clases que siguen a esa clasificación.
  • Las propiedades espectrales de las clases también pueden cambiar con el tiempo, por lo que no se puede tener la misma información de clase mientras se pasa de una imagen a otra.

Resumen

  • El aprendizaje no supervisado es una técnica de aprendizaje automático en la que no es necesario supervisar el modelo.
  • El aprendizaje automático no supervisado ayuda a encontrar todo tipo de patrones desconocidos en los datos.
  • El clustering y la asociación son dos tipos de aprendizaje no supervisado.
  • Cuatro tipos de métodos de clustering son 1) Exclusivo 2) Aglomerativo 3) Superposición 4) Probabilístico.
  • Los tipos de clustering más importantes son: 1)Clustering jerárquico 2) K-means clustering 3) K-NN 4) Análisis de componentes principales 5) Descomposición de valores singulares 6) Análisis de componentes independientes.
  • Las reglas de asociación permiten establecer asociaciones entre objetos de datos dentro de grandes bases de datos.
  • En el aprendizaje supervisado, los algoritmos se entrenan con datos etiquetados, mientras que en el aprendizaje no supervisado los algoritmos se utilizan con datos no etiquetados.
  • La detección de anomalías puede descubrir puntos de datos importantes en el conjunto de datos, lo que resulta útil para encontrar transacciones fraudulentas.
  • El mayor inconveniente del aprendizaje no supervisado es que no se puede obtener información precisa sobre la clasificación de los datos.

admin

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

lg