5.1 Analyse exploratoire des données avec Matplotlib et Seaborn

L'analyse exploratoire des données (AED) est une étape fondamentale du processus d'apprentissage automatique et d'apprentissage profond. Cela nous permet de mieux comprendre la structure, les modèles et les anomalies présents dans les données avant d'appliquer des techniques plus complexes. Pour réaliser une AED efficace, nous nous tournons souvent vers des bibliothèques de visualisation de données telles que Matplotlib et Seaborn, qui sont des outils puissants pour créer une grande variété de graphiques et de visualisations.

Importation de bibliothèque

La première étape consiste à importer les bibliothèques nécessaires. Matplotlib est une bibliothèque de traçage pour le langage de programmation Python et son package de mathématiques numériques, NumPy. Seaborn est une bibliothèque de visualisation de données basée sur Matplotlib qui offre une interface de haut niveau pour dessiner des graphiques statistiques attrayants et informatifs.

importer matplotlib.pyplot en tant que plt importer Seaborn en tant que SNS

Avec ces importations, nous avons accès aux fonctionnalités de ces outils puissants. Voyons comment nous pouvons les utiliser pour effectuer une analyse exploratoire efficace des données.

Explorer les données avec Matplotlib

Matplotlib est l'une des bibliothèques les plus populaires et les plus utilisées pour la visualisation de données en Python. Il vous donne un contrôle total sur les éléments de style et de format de vos graphiques, ce qui le rend très flexible.

Pour commencer, nous pouvons créer un graphique simple pour comprendre la distribution d'une seule variable. Par exemple, si nous disposons d'un ensemble de données sur la taille des individus, nous pouvons utiliser un histogramme pour visualiser cette distribution :

plt.hist(data['hauteur'], bacs=30, edgecolor='noir') plt.title('Distribution des hauteurs') plt.xlabel('Hauteur (cm)') plt.ylabel('Fréquence') plt.show()

Ce code produira un histogramme avec 30 barres (ou "bins"), nous permettant de voir où se concentrent le plus de hauteurs.

Nous pouvons également comparer deux variables à l'aide d'un nuage de points. Si nous voulions examiner la relation entre la taille et le poids, par exemple, nous pourrions faire :

plt.scatter(date['hauteur'], date['poids']) plt.title('Rapport taille et poids') plt.xlabel('Hauteur (cm)') plt.ylabel('Poids (kg)') plt.show()

Ce graphique nous aidera à visualiser s'il existe une corrélation apparente entre la taille et le poids dans les données dont nous disposons.

Explorer les données avec Seaborn

Seaborn est construit sur Matplotlib et offre une interface plus conviviale et stylisée pour créer des tracés. De plus, il dispose de fonctions intégrées pour créer des tracés qui seraient plus complexes à réaliser avec Matplotlib.

Par exemple, nous pouvons créer un boxplot, utile pour visualiser la distribution d'une variable et identifier les valeurs aberrantes :

sns.boxplot(x='catégorie', y='valeur', date=date) plt.title('Boxplot des valeurs par catégorie') plt.xlabel('Catégorie') plt.ylabel('Valeur') plt.show()

Ce graphique nous montre la médiane, les quartiles et les valeurs aberrantes pour la variable « valeur », regroupés par « catégorie ».

Seaborn facilite également la visualisation de paires de variables avec des paires de graphiques, qui créent une matrice de graphiques pour chaque paire de variables :

sns.pairplot (données) plt.show()

Ce code générera une grille de graphiques montrant la relation entre chaque paire de variables de l'ensemble de données, ce qui est extrêmement utile pour identifier rapidement les relations entre plusieurs variables.

Personnalisation des graphiques

Avec Matplotlib et Seaborn, nous avons la possibilité de personnaliser nos tracés pour les rendre plus informatifs et plus esthétiques. Nous pouvons modifier les couleurs, les styles de ligne, ajouter des annotations et bien plus encore.

Par exemple, pour définir un style spécifique dans Seaborn et augmenter la taille de la police des titres, nous pouvons faire :

sns.set_style('whitegrid') sns.set_context('talk', font_scale=1.2)

Avec ces paramètres, tous les graphiques créés ensuite auront un fond de grille blanc et des titres plus grands, ce qui peut être mieux adapté aux présentations ou aux rapports.

Conclusion

L'analyse exploratoire des données est une étape cruciale du machine learning et du deep learning, et la visualisation des données joue un rôle clé dans ce processus. Les bibliothèques Matplotlib et Seaborn sont des outils essentiels pour tout data scientist, permettant une compréhension approfondie des données via des graphiques et des visualisations. Grâce à l’exploration visuelle, nous pouvons identifier des modèles, des tendances et des anomalies qui sont essentiels à la modélisation ultérieure et à l’extraction d’informations. Avec la pratique, ces outils deviennent encore plus puissants, vous permettant de créer des visualisations complexes pouvant révéler l'histoire derrière un projet.les données.

Répondez maintenant à l’exercice sur le contenu :

Quel est le but de l’analyse exploratoire des données (AED) et quelles bibliothèques sont mentionnées dans le texte pour accomplir cette tâche ?

Tu as raison! Félicitations, passez maintenant à la page suivante

Vous avez raté! Essayer à nouveau.

Image de l'article Analyse exploratoire des données avec Matplotlib et Seaborn : chargement et inspection initiaux des données

Page suivante de lebook gratuit :

7Analyse exploratoire des données avec Matplotlib et Seaborn : chargement et inspection initiaux des données

0 minutes

Obtenez votre certificat pour ce cours gratuitement ! en téléchargeant lapplication Cursa et en lisant lebook qui sy trouve. Disponible sur Google Play ou App Store !

Get it on Google Play Get it on App Store

+ 6,5 millions
d'étudiants

Certificat gratuit et
valide avec QR Code

48 mille exercices
gratuits

Note de 4,8/5 dans les
magasins d'applications

Cours gratuits en
vidéo, audio et texte