5.12. Analyse exploratoire des données avec Matplotlib et Seaborn : Utiliser des paires de parcelles pour visualiser les relations dans plusieurs dimensions

L'analyse exploratoire des données (AED) est une étape fondamentale du processus d'apprentissage automatique et d'apprentissage profond. Cela permet aux data scientists de mieux comprendre la structure, les relations et les particularités des données avec lesquelles ils travaillent. La visualisation des données est un outil puissant pour AED, et des bibliothèques comme Matplotlib et Seaborn en Python offrent une large gamme de fonctionnalités pour créer des graphiques informatifs et attrayants. Dans ce chapitre, nous nous concentrerons spécifiquement sur l'utilisation de diagrammes de paires, également appelés matrices de nuages ​​de points ou SPLOM, pour explorer les relations entre plusieurs dimensions.

Que sont les paires de parcelles ?

Les paires de graphiques sont des graphiques qui permettent de visualiser des relations bivariées entre plusieurs paires de variables dans un ensemble de données. Chaque graphique de la matrice représente la relation entre deux variables, et tous les graphiques possibles entre les variables choisies sont affichés. Ceci est particulièrement utile pour identifier les modèles, les corrélations et les problèmes potentiels dans les données, tels que les valeurs aberrantes.

Matplotlib et Seaborn

Matplotlib est une bibliothèque de traçage de bas niveau en Python qui offre un excellent contrôle sur les éléments d'un tracé, mais avec une plus grande complexité pour créer des visualisations plus sophistiquées. Seaborn, quant à lui, est construit sur Matplotlib et offre une interface de plus haut niveau qui simplifie la création de tracés statistiques complexes, y compris les paires de parcelles.

Créer des paires de parcelles avec Seaborn

Pour créer des paires de parcelles à l'aide de Seaborn, vous devez d'abord importer la bibliothèque et charger un ensemble de données. Seaborn est livré avec des ensembles de données intégrés utiles pour la pratique et la démonstration. Un exemple est l'ensemble de données « iris », qui contient des mesures de différentes parties des fleurs d'iris et l'espèce à laquelle appartient chaque fleur.

importer seaborn en tant que sns
importer matplotlib.pyplot en tant que plt

# Chargement de l'ensemble de données
iris = sns.load_dataset('iris')

# Création du pairplot
sns.pairplot(iris, teinte='espèce')
plt.show()

Dans l'exemple ci-dessus, l'argument « teinte » est utilisé pour colorer les points en fonction de l'espèce d'iris, ce qui permet de visualiser comment les différentes espèces se regroupent par rapport aux mesures.

Personnalisation des paires de parcelles

Les paires de parcelles dans Seaborn sont hautement personnalisables. Par exemple, vous pouvez spécifier quelles variables doivent être incluses, modifier la palette de couleurs, ajouter des graphiques de régression aux tracés bivariés ou même modifier le type de graphique utilisé pour afficher la distribution univariée sur la diagonale de la matrice.

sns.pairplot(iris,
             vars=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'],
             teinte='espèce',
             palette='husl',
             genre='reg',
             diag_kind='kde')
plt.show()

Dans le code ci-dessus, 'vars' est utilisé pour spécifier les variables que nous souhaitons inclure. La palette « husl » offre une gamme de couleurs distinctes. L'argument 'kind' ajoute des lignes de régression aux tracés bivariés, tandis que 'diag_kind' fait passer les tracés de la diagonale aux estimations de densité à noyau (KDE).

Analyser les résultats

Lors de l'analyse des paires de parcelles, recherchez des modèles dans les données. Par exemple, les variables qui montrent une relation linéaire claire peuvent être de bons candidats pour la régression linéaire. Les graphiques montrant une séparation claire entre les catégories (telles que les espèces d'iris) indiquent que ces variables peuvent être utiles pour la classification. Les valeurs aberrantes peuvent être identifiées comme des points qui s'écartent considérablement des principaux clusters.

Considérations finales

Les Pairplots sont un outil puissant pour l'AED, mais ils ont leurs limites. Par exemple, dans les ensembles de données comportant un grand nombre de variables, la matrice graphique peut devenir difficile à analyser et sa génération coûteuse en termes de calcul. De plus, les paires de parcelles ne montrent que les relations bivariées et ne capturent pas les relations plus complexes qui peuvent exister dans des dimensions supérieures.

Malgré ces limitations, les paires de parcelles constituent un excellent moyen de commencer à explorer un nouvel ensemble de données. Ils fournissent des informations rapides et peuvent guider une analyse plus approfondie. Combinés à d'autres techniques d'AED et de visualisation de données, les paires de parcelles constituent un outil précieux pour les compétences de tout data scientist.

En résumé, l'analyse exploratoire des données avec Matplotlib et Seaborn est une étape cruciale dans le développement de modèles d'apprentissage automatique et d'apprentissage profond. L'utilisation de paires de graphiques pour visualiser les relations entre plusieurs dimensions fournit une vue complète des caractéristiques des données, aidant ainsi à identifier les modèles, les corrélations et les valeurs aberrantes qui peuvent être essentiels à la création de modèles prédictifs efficaces.s.

Répondez maintenant à l’exercice sur le contenu :

Quelle affirmation est vraie concernant l’utilisation des paires de parcelles dans l’analyse exploratoire des données (AED) ?

Tu as raison! Félicitations, passez maintenant à la page suivante

Vous avez raté! Essayer à nouveau.

Image de l'article Analyse exploratoire des données avec Matplotlib et Seaborn : enregistrez les visualisations dans des fichiers (PNG, JPG, etc.)

Page suivante de lebook gratuit :

18Analyse exploratoire des données avec Matplotlib et Seaborn : enregistrez les visualisations dans des fichiers (PNG, JPG, etc.)

0 minutes

Obtenez votre certificat pour ce cours gratuitement ! en téléchargeant lapplication Cursa et en lisant lebook qui sy trouve. Disponible sur Google Play ou App Store !

Get it on Google Play Get it on App Store

+ 6,5 millions
d'étudiants

Certificat gratuit et
valide avec QR Code

48 mille exercices
gratuits

Note de 4,8/5 dans les
magasins d'applications

Cours gratuits en
vidéo, audio et texte