- Aprendizagem sem Supervisão
- Algoritmos de aprendizagem não supervisionada
- Exemplo de aprendizagem sem supervisão
- Porquê aprender sem supervisão?
- Tipos de aprendizagem não supervisionada
- Clustering
- Exclusivo (particionamento)
- Agglomerativo
- Overslapping
- Probabilístico
- Tipos de agrupamento
- Agrupamento hierárquico:
- K significa Clustering
- Aglomeração agregadora:
- Dendrogram:
- K- Vizinhos mais próximos
- Análise de Componentes Principais:
- Associação
- Supervisionados vs. Aprendizagem sem supervisão da máquina
- Aplicações da aprendizagem não supervisionada de máquinas
- Desvantagens da aprendizagem não supervisionada
- Sumário
Aprendizagem sem Supervisão
Aprendizagem sem Supervisão é uma técnica de aprendizagem de máquina em que os utilizadores não precisam de supervisionar o modelo. Em vez disso, ela permite que o modelo trabalhe por si mesmo para descobrir padrões e informações que antes não eram detectados. Ela lida principalmente com os dados não etiquetados.
Algoritmos de aprendizagem não supervisionada
Algoritmos de aprendizagem não supervisionada permitem aos utilizadores executar tarefas de processamento mais complexas em comparação com a aprendizagem supervisionada. Embora, a aprendizagem não supervisionada possa ser mais imprevisível em comparação com outros métodos naturais de aprendizagem. Algoritmos de aprendizagem não supervisionada incluem agrupamento, detecção de anomalias, redes neurais, etc.
Neste tutorial, você irá aprender:
- Exemplo de aprendizagem sem supervisão de máquinas
- Porquê a aprendizagem sem supervisão de máquinas?
- Tipos de Aprendizagem Sem Supervisão
- Clustering
- Tipos de Clustering
- Associação
- Supervisionado vs. Aprendizagem sem supervisão
- Aplicações da aprendizagem sem supervisão
- Desvantagens da aprendizagem sem supervisão
Exemplo de aprendizagem sem supervisão
Vamos, pegue o caso de um bebê e seu cachorro da família.
Ela conhece e identifica este cão. Poucas semanas depois, um amigo da família traz um cão e tenta brincar com o bebé.
Baby não viu este cão mais cedo. Mas reconhece muitas características (2 orelhas, olhos, andar sobre 4 patas) são como o seu cão de estimação. Ela identifica o novo animal como um cão. Isto é uma aprendizagem sem supervisão, onde você não é ensinado mas aprende com os dados (neste caso dados sobre um cão.) Se isto tivesse sido uma aprendizagem supervisionada, o amigo da família teria dito ao bebé que é um cão.
Porquê aprender sem supervisão?
Aqui, são as principais razões para usar a aprendizagem sem supervisão:
- Aprendizagem sem supervisão encontra todo o tipo de padrões desconhecidos nos dados.
- Os métodos não supervisionados ajudam-no a encontrar características que podem ser úteis para a categorização.
- Ocorre em tempo real, por isso todos os dados de entrada a serem analisados e rotulados na presença dos alunos.
- É mais fácil obter dados não rotulados de um computador do que os dados rotulados, que necessitam de intervenção manual.
Tipos de aprendizagem não supervisionada
Problemas de aprendizagem não supervisionada mais agrupados em problemas de agrupamento e associação.
Clustering
Clustering é um conceito importante quando se trata de aprendizagem não supervisionada. Ele trata principalmente de encontrar uma estrutura ou padrão em uma coleção de dados não categorizados. Os algoritmos de clustering processarão seus dados e encontrarão clusters naturais (grupos), se eles existirem nos dados. Você também pode modificar quantos clusters os seus algoritmos devem identificar. Ele permite que você ajuste a granularidade desses grupos.
Existem diferentes tipos de clusters que você pode utilizar:
Exclusivo (particionamento)
Neste método de agrupamento, os dados são agrupados de tal forma que um dado pode pertencer a apenas um agrupamento.
Exemplo: K significa
Agglomerativo
Nesta técnica de agrupamento, cada dado é um cluster. As uniões iterativas entre os dois aglomerados mais próximos reduzem o número de aglomerados.
Exemplo: Agrupamento hierárquico
Overslapping
Nesta técnica, conjuntos difusos são usados para agrupar dados. Cada ponto pode pertencer a dois ou mais clusters com graus de afiliação separados.
Aqui, os dados serão associados a um valor de afiliação apropriado. Exemplo: Fuzzy C-Means
Probabilístico
Esta técnica usa distribuição de probabilidade para criar os clusters
Exemplo: As seguintes palavras-chave
- “sapato de homem”
- “sapato de mulher”
- “luva de mulher”
- “luva de homem”
podem ser agrupadas em duas categorias “sapato” e “luva” ou “homem” e “mulher”.
Tipos de agrupamento
- Agrupamento hierárquico
- K significa agrupamento
- K-NN (k vizinhos mais próximos)
- Análise de componentes primitivos
- Decomposição de valores singulares
- Análise de componentes independentes
Agrupamento hierárquico:
Aglomeração hierárquica é um algoritmo que constrói uma hierarquia de clusters. Ele começa com todos os dados que são atribuídos a um cluster próprio. Aqui, dois clusters próximos vão estar no mesmo cluster. Este algoritmo termina quando resta apenas um cluster.
K significa Clustering
K significa que é um algoritmo de clustering iterativo que ajuda a encontrar o valor mais alto para cada iteração. Inicialmente, o número desejado de clusters é selecionado. Neste método de agrupamento, é necessário agrupar os pontos de dados em grupos k. Um k maior significa grupos menores com mais granularidade da mesma forma. Um k menor significa grupos maiores com menos granularidade.
A saída do algoritmo é um grupo de “etiquetas”. Ele atribui pontos de dados a um dos grupos de k. Em k significa agrupamento, cada grupo é definido através da criação de um centróide para cada grupo. Os centróides são como o coração do cluster, que captura os pontos mais próximos a eles e os adiciona ao cluster.
K-mean clustering define ainda mais dois subgrupos:
- Aglomeração agregadora
- Dendrograma
Aglomeração agregadora:
Este tipo de K significa aglomeração começa com um número fixo de aglomerados. Ele aloca todos os dados para o número exato de clusters. Este método de agrupamento não requer o número de clusters K como uma entrada. O processo de agrupamento começa com a formação de cada dado como um único cluster.
Este método usa alguma medida de distância, reduz o número de clusters (um em cada iteração) através do processo de fusão. Finalmente, temos um grande cluster que contém todos os objetos.
Dendrogram:
No método Dendrogram clustering, cada nível representará um possível cluster. A altura do dendrogram mostra o nível de similaridade entre dois clusters de junção. Quanto mais próximo da parte inferior do processo, mais semelhantes são os clusters, o que é encontrar do grupo de dendrogram o que não é natural e principalmente subjetivo.
K- Vizinhos mais próximos
K- Vizinho mais próximo é o mais simples de todos os classificadores de aprendizagem de máquinas. Difere de outras técnicas de aprendizagem de máquinas, na medida em que não produz um modelo. É um algoritmo simples que armazena todos os casos disponíveis e classifica novas instâncias com base em uma medida de similaridade.
Funciona muito bem quando há uma distância entre exemplos. A velocidade de aprendizagem é lenta quando o conjunto de treinamento é grande, e o cálculo da distância é não trivial.
Análise de Componentes Principais:
No caso de você querer um espaço de maior dimensão. Você precisa selecionar uma base para esse espaço e apenas as 200 notas mais importantes dessa base. Essa base é conhecida como um componente principal. O subconjunto que você selecionar constitui é um novo espaço que é pequeno em tamanho comparado ao espaço original. Ele mantém a maior complexidade de dados possível.
Associação
Associação permite estabelecer associações entre objetos de dados dentro de grandes bases de dados. Esta técnica sem supervisão consiste em descobrir relações interessantes entre variáveis em grandes bases de dados. Por exemplo, as pessoas que compram uma casa nova têm maior probabilidade de comprar móveis novos.
Outros exemplos:
- Um subgrupo de pacientes com cancro agrupados pelas suas medidas de expressão genética
- Grupos de compradores com base nos seus históricos de navegação e compra
- Grupo de filmes pela classificação dada pelos espectadores de filmes
Supervisionados vs. Aprendizagem sem supervisão da máquina
Parâmetros | Aprendizagem supervisionada da máquina | Aprendizagem sem supervisão da máquina |
Dados de entrada | Algoritmos são treinados usando dados etiquetados. | Algoritmos são usados contra dados que não são rotulados |
Complexidade computacional | Aprendizagem supervisionada é um método mais simples. | Aprendizagem não supervisionada é computacionalmente complexa |
Acuidade | Método altamente preciso e fiável. | Método sem precisão e de confiança. |
Aplicações da aprendizagem não supervisionada de máquinas
Algumas aplicações de técnicas de aprendizagem não supervisionada de máquinas são:
- Clustering divide automaticamente o conjunto de dados em grupos com base nas suas semelhanças
- Anomaly detection can discover unusual data points in your dataet. É útil para encontrar transações fraudulentas
- Association mining identifica conjuntos de itens que freqüentemente ocorrem juntos em seu conjunto de dados
- Modelos de variáveis latentes são amplamente utilizados para o pré-processamento de dados. Como reduzir o número de características em um conjunto de dados ou decompor o conjunto de dados em múltiplos componentes
Desvantagens da aprendizagem não supervisionada
- Você não pode obter informações precisas em relação à classificação dos dados, e a saída como dados usados na aprendizagem não supervisionada é rotulada e não conhecida
- Sem precisão dos resultados é porque os dados de entrada não são conhecidos e não rotulados pelas pessoas com antecedência. Isto significa que a máquina necessita de fazer isto por si própria.
- As classes espectrais nem sempre correspondem a classes informativas.
- O usuário precisa gastar tempo interpretando e etiquetando as classes que seguem essa classificação.
- As propriedades espectrais das classes também podem mudar com o tempo para que não se possa ter a mesma informação de classe enquanto se move de uma imagem para outra.
Sumário
- Aprendizagem sem supervisão é uma técnica de aprendizagem de máquina, onde você não precisa supervisionar o modelo.
- Aprendizagem sem supervisão de máquina ajuda você a encontrar todo tipo de padrões desconhecidos nos dados.
- Agrupamento e Associação são dois tipos de aprendizagem não supervisionada.
- Quatro tipos de métodos de agrupamento são 1) Exclusivo 2) Aglomerado 3) Sobreposição 4) Probabilístico.
- Tipos importantes de agrupamento são: 1) Agrupamento hierárquico 2) K significa agrupamento 3) K-NN 4) Análise de componentes principais 5) Decomposição de valores individuais 6) Análise de componentes independentes.
- As regras de associação permitem estabelecer associações entre objetos de dados dentro de grandes bancos de dados.
- Na aprendizagem supervisionada, os Algoritmos são treinados usando dados etiquetados enquanto na aprendizagem não supervisionada os Algoritmos são usados contra dados que não são etiquetados.
- Anomaly detection can discover important data points in your dataet which is useful for find fraudulent transactions.
- The biggest drawback of Unsupervised learning is that you cannot get precise information regarding data sorting.