Algoritmos de agrupamiento: K-Means y agrupamiento jerárquico

La agrupación en clústeres es una técnica de aprendizaje automático que implica agrupar puntos de datos. En teoría, los puntos de datos que están en el mismo grupo deberían tener características o propiedades similares, mientras que los puntos de datos de diferentes grupos deberían tener características distintas. Entre los algoritmos de agrupamiento, K-Means y Hierarchical Clustering se encuentran entre los más utilizados. En este texto, exploraremos estos dos métodos en detalle.

Agrupación de K-medias

K-Means es un método de agrupación que tiene como objetivo dividir n observaciones en k grupos, donde cada observación pertenece al grupo con la media más cercana. Este método es particularmente eficiente desde el punto de vista computacional y fácil de implementar, lo que lo convierte en uno de los algoritmos de agrupación en clústeres más populares.

Cómo funciona K-Means

El algoritmo K-Means sigue un enfoque simple para clasificar un conjunto dado de datos a través de un cierto número de grupos (se supone que son k grupos). El proceso consta de los siguientes pasos:

  1. Inicialización: elegir k puntos aleatorios como centros de clúster (centroides).
  2. Asignación: asigne cada punto de datos al centroide más cercano, formando k grupos.
  3. Actualización: vuelva a calcular los centroides para que sean el centro (promedio) de todos los puntos de datos asignados al grupo.
  4. Repetición: repita los pasos 2 y 3 hasta que los centroides no cambien significativamente, lo que indica convergencia del algoritmo.

Desafíos de K-Means

A pesar de su simplicidad y eficiencia, K-Means enfrenta algunos desafíos:

  • Elegir el número k de grupos puede ser difícil y puede requerir métodos como el método del codo o el análisis de la silueta para determinar el número óptimo de grupos.
  • El algoritmo es sensible a la inicialización de centroides y puede converger a mínimos locales. Esto se puede mitigar parcialmente con métodos como K-Means++ para una inicialización más inteligente de los centroides.
  • K-Means supone que los grupos son esféricos y de tamaño similar, lo que puede no ser el caso para todos los conjuntos de datos.

Agrupación jerárquica

A diferencia de K-Means, la agrupación jerárquica no requiere una especificación previa del número de agrupaciones. En su lugar, crea un árbol de conglomerados llamado dendrograma, que le permite visualizar la estructura de los datos y determinar el número de conglomerados analizando el dendrograma.

Cómo funciona la agrupación jerárquica

Hay dos tipos de agrupación jerárquica: aglomerativa (de abajo hacia arriba) y divisiva (de arriba hacia abajo). El método aglomerativo es el más común y funciona de la siguiente manera:

  1. Empiece por tratar cada punto de datos como un grupo individual.
  2. Encuentre los dos grupos más cercanos y combínelos en un solo grupo.
  3. Repita el paso 2 hasta que todos los puntos de datos estén en un solo grupo.

El resultado es un árbol que refleja la estructura de los datos.

Medición de distancia en agrupamiento jerárquico

Una parte crucial de la agrupación jerárquica es elegir una métrica de distancia para determinar la proximidad entre las agrupaciones. Algunas de las métricas más comunes incluyen:

  • Distancia euclidiana
  • Distancia desde Manhattan
  • Distancia máxima
  • Distancia desde Mahalanobis

Además, es necesario definir cómo medir la distancia entre conjuntos de puntos de datos (clusters). Algunos enfoques incluyen el método de enlace simple (distancia más pequeña entre puntos de diferentes grupos), enlace completo (distancia más grande entre puntos de diferentes grupos) y enlace promedio (distancia promedio entre todos los pares de puntos de diferentes grupos).

Ventajas y desventajas de la agrupación jerárquica

La agrupación jerárquica tiene varias ventajas y desventajas:

  • Ventajas:
    • No es necesario especificar el número de clústeres de antemano.
    • El dendrograma producido es muy informativo y muestra la estructura de los datos.
    • Puede ser más adecuado para ciertos tipos de datos estructurales.
  • Desventajas:
    • Computacionalmente más intensivo que K-Means, especialmente para grandes conjuntos de datos.
    • Difícil de aplicar cuandoNo tenemos una gran cantidad de datos.
    • Una vez que un punto de datos se asigna a un grupo, no se puede mover a otro.

Conclusión

Los algoritmos de agrupación K-Means y agrupación jerárquica son herramientas poderosas para el análisis de datos no supervisados. K-Means es adecuado para grandes conjuntos de datos y donde tiene una idea de la cantidad de clústeres. La agrupación jerárquica es útil cuando se desconoce la estructura de los datos y se desea una representación visual a través del dendrograma. La elección entre los dos métodos dependerá de las características específicas del conjunto de datos y de los objetivos del análisis.

Ahora responde el ejercicio sobre el contenido:

¿Cuál de las siguientes afirmaciones es cierta sobre el algoritmo de agrupamiento de K-Means?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

Imagen del artículo Introducción al aprendizaje profundo y las redes neuronales artificiales

Siguiente página del libro electrónico gratuito:

44Introducción al aprendizaje profundo y las redes neuronales artificiales

4 minutos

¡Obtén tu certificado para este curso gratis! descargando la aplicación Cursa y leyendo el libro electrónico allí. ¡Disponible en Google Play o App Store!

Disponible en Google Play Disponible en App Store

+ 6,5 millones
estudiantes

Certificado gratuito y
válido con código QR

48 mil ejercicios
gratis

Calificación de 4.8/5
en tiendas de aplicaciones

Cursos gratuitos de
vídeo, audio y texto.