Todos os cursos > Tecnologia, Informática e Programação > Inteligência Artificial e Ciência de Dados ::

Algoritmos de Clustering: K-Means e Hierarchical Clustering

Capítulo 43

Tempo estimado de leitura: 4 minutos

+ Exercício

Ouça em áudio

0:00 / 0:00

Algoritmos de Clustering: K-Means e Hierarchical Clustering

O clustering é uma técnica de aprendizado de máquina que envolve a agrupação de pontos de dados. Em teoria, os pontos de dados que estão no mesmo grupo devem ter características ou propriedades semelhantes, enquanto os pontos de dados em diferentes grupos devem ter características distintas. Dentre os algoritmos de clustering, o K-Means e o Hierarchical Clustering estão entre os mais utilizados. Neste texto, exploraremos esses dois métodos em detalhes.

K-Means Clustering

O K-Means é um método de clustering que visa particionar n observações em k clusters, onde cada observação pertence ao cluster com a média mais próxima. Esse método é particularmente eficiente em termos computacionais e fácil de implementar, o que o torna um dos algoritmos de clustering mais populares.

Funcionamento do K-Means

O algoritmo K-Means segue uma abordagem simples para classificar um dado conjunto de dados através de um certo número de clusters (assumido como k clusters). O processo é composto pelas seguintes etapas:

Inicialização: Escolha de k pontos aleatórios como centros de clusters (centroides).
Atribuição: Atribua cada ponto de dados ao centroide mais próximo, formando k clusters.
Atualização: Recalcule os centroides como sendo o centro (média) de todos os pontos de dados atribuídos ao cluster.
Repetição: Repita os passos 2 e 3 até que os centroides não mudem significativamente, o que indica a convergência do algoritmo.

Desafios do K-Means

Apesar de sua simplicidade e eficiência, o K-Means enfrenta alguns desafios:

A escolha do número k de clusters pode ser difícil e pode exigir métodos como o método do cotovelo ou a análise de silhueta para determinar o número ótimo de clusters.
O algoritmo é sensível à inicialização dos centroides e pode convergir para mínimos locais. Isso pode ser parcialmente mitigado com métodos como o K-Means++ para uma inicialização mais inteligente dos centroides.
O K-Means assume que os clusters são esféricos e de tamanho similar, o que pode não ser o caso para todos os conjuntos de dados.

Hierarchical Clustering

Em contraste com o K-Means, o clustering hierárquico não requer a especificação prévia do número de clusters. Em vez disso, ele cria uma árvore de clusters chamada dendrograma, que permite visualizar a estrutura dos dados e determinar o número de clusters pela análise do dendrograma.

Continue em nosso aplicativo e ...

Ouça o áudio com a tela desligada
Ganhe Certificado após a conclusão
+ de 5000 cursos para você explorar!

ou continue lendo abaixo...

Baixar o aplicativo

Funcionamento do Hierarchical Clustering

Existem dois tipos de clustering hierárquico: aglomerativo (bottom-up) e divisivo (top-down). O método aglomerativo é o mais comum e funciona da seguinte maneira:

Comece tratando cada ponto de dados como um cluster individual.
Encontre os dois clusters mais próximos e combine-os em um único cluster.
Repita o passo 2 até que todos os pontos de dados estejam em um único cluster.

O resultado é uma árvore que reflete a estrutura dos dados.

Medição de Distância no Hierarchical Clustering

Uma parte crucial do clustering hierárquico é a escolha de uma métrica de distância para determinar a proximidade entre os clusters. Algumas das métricas mais comuns incluem:

Distância Euclidiana
Distância de Manhattan
Distância Máxima
Distância de Mahalanobis

Além disso, é necessário definir como medir a distância entre conjuntos de pontos de dados (clusters). Algumas abordagens incluem o método do link simples (menor distância entre pontos de diferentes clusters), link completo (maior distância entre pontos de diferentes clusters) e link médio (distância média entre todos os pares de pontos de diferentes clusters).

Vantagens e Desvantagens do Hierarchical Clustering

O clustering hierárquico tem várias vantagens e desvantagens:

Vantagens:
- Não é necessário especificar o número de clusters de antemão.
- O dendrograma produzido é muito informativo e mostra a estrutura dos dados.
- Pode ser mais adequado para certos tipos de dados estruturais.
Desvantagens:
- Computacionalmente mais intensivo do que o K-Means, especialmente para grandes conjuntos de dados.
- Difícil de aplicar quando temos uma grande quantidade de dados.
- Uma vez que um ponto de dados é atribuído a um cluster, não pode ser movido para outro.

Conclusão

Os algoritmos de clustering K-Means e Hierarchical Clustering são ferramentas poderosas para a análise de dados não supervisionada. O K-Means é adequado para grandes conjuntos de dados e onde se tem uma noção do número de clusters. Já o clustering hierárquico é útil quando a estrutura dos dados é desconhecida e se deseja uma representação visual através do dendrograma. A escolha entre os dois métodos dependerá das características específicas do conjunto de dados e dos objetivos da análise.

Agora responda o exercício sobre o conteúdo:

Qual dos seguintes pontos é verdadeiro sobre o algoritmo K-Means de clustering?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

O K-Means visa particionar n observações em k clusters, onde cada observação pertence ao cluster com a média mais próxima. Isso reflete exatamente o funcionamento do algoritmo descrito, e ao contrário do Hierarchical Clustering, o K-Means requer que o número de clusters, k, seja especificado antes da execução.