Algorithmes de clustering : K-Means et clustering hiérarchique

Le clustering est une technique d'apprentissage automatique qui consiste à regrouper des points de données. En théorie, les points de données appartenant au même groupe devraient avoir des caractéristiques ou des propriétés similaires, tandis que les points de données appartenant à des groupes différents devraient avoir des caractéristiques distinctes. Parmi les algorithmes de clustering, les K-Means et le Clustering Hiérarchique sont parmi les plus utilisés. Dans ce texte, nous explorerons ces deux méthodes en détail.

Clustering K-Means

K-Means est une méthode de clustering qui vise à partitionner n observations en k clusters, où chaque observation appartient au cluster avec la moyenne la plus proche. Cette méthode est particulièrement efficace sur le plan informatique et facile à mettre en œuvre, ce qui en fait l'un des algorithmes de clustering les plus populaires.

Comment fonctionne K-Means

L'algorithme K-Means suit une approche simple pour classer un ensemble de données donné à travers un certain nombre de clusters (supposés être k clusters). Le processus comprend les étapes suivantes :

  1. Initialisation : choix de k points aléatoires comme centres de cluster (centroïdes).
  2. Affectation : attribuez chaque point de données au centroïde le plus proche, formant ainsi k clusters.
  3. Mise à jour : recalculez les centroïdes pour qu'ils soient le centre (moyenne) de tous les points de données attribués au cluster.
  4. Répétition : répétez les étapes 2 et 3 jusqu'à ce que les centroïdes ne changent pas de manière significative, ce qui indique une convergence de l'algorithme.

Défis K-Means

Malgré sa simplicité et son efficacité, K-Means est confronté à certains défis :

  • Choisir le nombre k de clusters peut être difficile et peut nécessiter des méthodes telles que la méthode du coude ou l'analyse de silhouette pour déterminer le nombre optimal de clusters.
  • L'algorithme est sensible à l'initialisation des centroïdes et peut converger vers des minima locaux. Cela peut être partiellement atténué avec des méthodes telles que K-Means++ pour une initialisation plus intelligente des centroïdes.
  • K-Means suppose que les clusters sont sphériques et de taille similaire, ce qui peut ne pas être le cas pour tous les ensembles de données.

Clustering hiérarchique

Contrairement aux K-Means, le clustering hiérarchique ne nécessite pas de spécification préalable du nombre de clusters. Au lieu de cela, il crée un arbre de clusters appelé dendrogramme, qui vous permet de visualiser la structure des données et de déterminer le nombre de clusters en analysant le dendrogramme.

Fonctionnement du clustering hiérarchique

Il existe deux types de regroupement hiérarchique : agglomératif (de bas en haut) et divisif (de haut en bas). La méthode agglomérée est la plus courante et fonctionne comme suit :

  1. Commencez par traiter chaque point de données comme un cluster individuel.
  2. Trouvez les deux clusters les plus proches et combinez-les en un seul cluster.
  3. Répétez l'étape 2 jusqu'à ce que tous les points de données soient dans un seul cluster.

Le résultat est un arbre qui reflète la structure des données.

Mesure de distance dans le clustering hiérarchique

Un élément crucial du clustering hiérarchique consiste à choisir une métrique de distance pour déterminer la proximité entre les clusters. Certaines des statistiques les plus courantes incluent :

  • Distance euclidienne
  • Distance depuis Manhattan
  • Distance maximale
  • Distance depuis Mahalanobis

De plus, il est nécessaire de définir comment mesurer la distance entre des ensembles de points de données (clusters). Certaines approches incluent la méthode du lien simple (plus petite distance entre les points de différents clusters), le lien complet (la plus grande distance entre les points de différents clusters) et le lien moyen (distance moyenne entre toutes les paires de points de différents clusters).

Avantages et inconvénients du clustering hiérarchique

Le clustering hiérarchique présente plusieurs avantages et inconvénients :

  • Avantages :
    • Il n'est pas nécessaire de préciser au préalable le nombre de clusters.
    • Le dendrogramme produit est très informatif et montre la structure des données.
    • Peut être plus adapté à certains types de données structurelles.
  • Inconvénients :
    • Des calculs plus intensifs que les K-Means, en particulier pour les grands ensembles de données.
    • Difficile à appliquer lorsqueNous ne disposons pas d'une grande quantité de données.
    • Une fois qu'un point de données est attribué à un cluster, il ne peut pas être déplacé vers un autre.

Conclusion

Les algorithmes de clustering K-Means et Hierarchical Clustering sont des outils puissants pour l'analyse de données non supervisée. K-Means convient aux grands ensembles de données et où vous avez une idée du nombre de clusters. Le regroupement hiérarchique est utile lorsque la structure des données est inconnue et qu'une représentation visuelle est souhaitée via le dendrogramme. Le choix entre les deux méthodes dépendra des caractéristiques spécifiques de l'ensemble de données et des objectifs de l'analyse.

Répondez maintenant à l’exercice sur le contenu :

Lequel des énoncés suivants est vrai à propos de l’algorithme de clustering K-Means ?

Tu as raison! Félicitations, passez maintenant à la page suivante

Vous avez raté! Essayer à nouveau.

Image de l'article Introduction à l'apprentissage profond et aux réseaux de neurones artificiels

Page suivante de lebook gratuit :

44Introduction à l'apprentissage profond et aux réseaux de neurones artificiels

0 minutes

Obtenez votre certificat pour ce cours gratuitement ! en téléchargeant lapplication Cursa et en lisant lebook qui sy trouve. Disponible sur Google Play ou App Store !

Get it on Google Play Get it on App Store

+ 6,5 millions
d'étudiants

Certificat gratuit et
valide avec QR Code

48 mille exercices
gratuits

Note de 4,8/5 dans les
magasins d'applications

Cours gratuits en
vidéo, audio et texte