5.11. Analyse exploratoire des données avec Matplotlib et Seaborn : analyse de corrélation et carte thermique

L'analyse exploratoire des données (AED) est une étape fondamentale du processus d'apprentissage automatique et d'apprentissage profond, car elle permet aux data scientists de mieux comprendre la structure, les modèles et les relations qui existent dans les données. L’un des outils les plus puissants d’AED est l’analyse de corrélation, qui peut être visualisée efficacement via des cartes thermiques. Dans ce chapitre, nous explorerons comment effectuer une analyse de corrélation et créer des cartes thermiques à l'aide des bibliothèques Matplotlib et Seaborn en Python.

Comprendre la corrélation

La corrélation mesure la relation linéaire entre deux variables quantitatives. Le coefficient de corrélation, généralement désigné par « r », varie entre -1 et 1, où 1 indique une corrélation positive parfaite, -1 indique une corrélation négative parfaite et 0 indique aucune corrélation linéaire. Concrètement, une corrélation élevée (positive ou négative) suggère que lorsqu'une variable augmente, l'autre augmente également (corrélation positive) ou diminue (corrélation négative).

Calcul de la corrélation avec les pandas

Avant de visualiser la corrélation, nous devons la calculer. Pandas, une bibliothèque de manipulation de données en Python, propose la fonction .corr() pour calculer la matrice de corrélation d'un DataFrame. La matrice de corrélation est un tableau où chaque cellule à la position (i, j) représente la corrélation entre la ième et la jième variable dans l'ensemble de données.

importer des pandas en tant que PD

# Charger l'ensemble de données
df = pd.read_csv('votre_ensemble de données.csv')

# Calculer la matrice de corrélation
corrélation_matrix = df.corr()

Visualisation de la corrélation avec Matplotlib et Seaborn

Bien que Pandas fournisse la matrice de corrélation, son interprétation numérique peut être difficile, en particulier lorsqu'il s'agit de nombreuses variables. C'est là qu'interviennent les visualisations. Matplotlib est une bibliothèque de tracés de bas niveau en Python qui offre une grande flexibilité, tandis que Seaborn est construit sur Matplotlib et fournit une interface de haut niveau pour dessiner des tracés statistiques plus attrayants et informatifs.

Créer une Heatmap avec Seaborn

Une carte thermique est une représentation graphique de données où les valeurs individuelles contenues dans une matrice sont représentées sous forme de couleurs. Ceci est particulièrement utile pour visualiser la matrice de corrélation, car les couleurs peuvent aider à mettre en évidence les modèles de corrélation entre les variables. Pour créer une carte thermique, nous pouvons utiliser la fonction heatmap() de Seaborn.

importer seaborn en tant que sns
importer matplotlib.pyplot en tant que plt

# Configurer le style Seaborn
sns.set_theme(style='blanc')

# Créer la carte thermique
plt.figure(figsize=(10, 8))
sns.heatmap(matriz_correlacao, annot=True, fmt='.2f', cmap='coolwarm', square=True)

# Afficher le graphique
plt.show()

Le code ci-dessus configure le thème Seaborn, crée une figure avec une taille spécifique, dessine une carte thermique de la matrice de corrélation avec des annotations numériques formatées avec deux décimales, utilise la palette de couleurs « coolwarm » qui est idéale pour mettre en évidence les corrélations positives et négatives. , et affiche enfin le graphique.

Interprétation de la Heatmap

Lors de l'interprétation de la heatmap, il est important de faire attention aux couleurs et aux valeurs notées. Les couleurs plus chaudes (comme le rouge) indiquent de fortes corrélations positives, tandis que les couleurs plus froides (comme le bleu) indiquent de fortes corrélations négatives. Les couleurs proches du blanc ou du gris indiquent des corrélations faibles ou inexistantes.

Ajustements finaux de la carte thermique

Bien que la carte thermique de base puisse déjà fournir de nombreuses informations, nous souhaiterons peut-être procéder à des ajustements pour améliorer l'interprétation. Par exemple, nous pourrions vouloir ajouter un titre, ajuster les étiquettes des axes ou modifier la palette de couleurs. Seaborn et Matplotlib permettent ces personnalisations en toute simplicité.

# Créer la carte thermique avec des ajustements supplémentaires
plt.figure(figsize=(12, 10))
heatmap = sns.heatmap(matriz_correlacao, annot=True, fmt='.2f', cmap='coolwarm', square=True)

# Ajouter un titre et ajuster la police
heatmap.set_title('Correlation Heatmap', fontdict={'fontsize':18}, pad=12)

# Ajuster les étiquettes des axes
plt.xticks(rotation=45, ha='droite')
plt.yticks(rotation=0)

# Afficher le graphique
plt.show()

Ce code ajoute un titre à la carte thermique, ajuste la taille et l'espacement de la police, et fait pivoter les étiquettes des axes pour une lecture plus facile.

Considérations finales

L'analyse et la visualisation des corrélations via des cartes thermiques sont des outils puissants dans AED, qui fournissent des informations rapides sur la manière dont les variables de l'ensemble de données sont liées les unes aux autres. Dans le contexte de l'apprentissage automatique et de l'apprentissage profond, la compréhension de ces relations est cruciale pour la sélection des fonctionnalités, l'ingénierie des fonctionnalités et la création de modèles plus efficaces. En maîtrisant l'utilisation de Matplotlib et SeabornPour créer des cartes thermiques, les data scientists peuvent communiquer leurs résultats de manière claire et efficace.

Il est important de noter que la corrélation n'implique pas la causalité. Une forte corrélation entre deux variables ne signifie pas que l’une provoque l’autre. Par conséquent, l'analyse de corrélation doit être complétée par des connaissances du domaine et d'autres techniques statistiques pour établir des relations causales.

En résumé, l'analyse exploratoire des données avec Matplotlib et Seaborn est une compétence essentielle pour toute personne travaillant avec le machine learning et le deep learning en Python. La capacité de visualiser et d'interpréter efficacement les relations entre les variables peut conduire à des informations précieuses et améliorer considérablement la qualité des modèles prédictifs.

Répondez maintenant à l’exercice sur le contenu :

Laquelle des affirmations suivantes est vraie concernant l’analyse de corrélation et la création de cartes thermiques comme décrit dans le texte ci-dessus ?

Tu as raison! Félicitations, passez maintenant à la page suivante

Vous avez raté! Essayer à nouveau.

Image de l'article Analyse exploratoire des données avec Matplotlib et Seaborn : utilisation de paires de parcelles pour visualiser les relations dans plusieurs dimensions

Page suivante de lebook gratuit :

17Analyse exploratoire des données avec Matplotlib et Seaborn : utilisation de paires de parcelles pour visualiser les relations dans plusieurs dimensions

0 minutes

Obtenez votre certificat pour ce cours gratuitement ! en téléchargeant lapplication Cursa et en lisant lebook qui sy trouve. Disponible sur Google Play ou App Store !

Get it on Google Play Get it on App Store

+ 6,5 millions
d'étudiants

Certificat gratuit et
valide avec QR Code

48 mille exercices
gratuits

Note de 4,8/5 dans les
magasins d'applications

Cours gratuits en
vidéo, audio et texte