5.13. Analyse exploratoire des données avec Matplotlib et Seaborn : enregistrez les visualisations dans des fichiers (PNG, JPG, etc.)
L'analyse exploratoire des données (EDA) est une étape fondamentale du processus d'apprentissage automatique et d'apprentissage profond, car elle vous permet de mieux comprendre les caractéristiques, les modèles et les relations présents dans les données. Python, étant l'un des langages les plus populaires pour la science des données, propose des bibliothèques puissantes comme Matplotlib et Seaborn pour la visualisation des données. Un élément crucial d'EDA est la possibilité d'enregistrer les visualisations créées dans des fichiers tels que PNG, JPG et d'autres formats, afin qu'elles puissent être utilisées dans des rapports, des présentations ou simplement archivées pour référence future.
Matplotlib : une introduction
Matplotlib est une bibliothèque de traçage pour le langage de programmation Python et son package d'extension numérique NumPy. Il fournit une interface orientée objet pour intégrer des graphiques dans des applications utilisant des boîtes à outils GUI telles que Tkinter, wxPython, Qt ou GTK. De plus, Matplotlib peut être utilisé dans les scripts Python, les shells Python et IPython, le notebook Jupyter, les serveurs d'applications Web et quatre kits d'outils GUI.
Seaborn : une introduction
Seaborn est une bibliothèque de visualisation de données Python basée sur Matplotlib. Il fournit une interface de haut niveau pour dessiner des graphiques statistiques attrayants et informatifs. Seaborn est particulièrement adapté à l'exploration et à la compréhension des données grâce à des graphiques de haute qualité. Cela fonctionne bien avec les Pandas DataFrames et suppose que les données sont dans un format propre adapté aux visualisations.
Enregistrement des visualisations avec Matplotlib
Pour enregistrer des graphiques avec Matplotlib, vous pouvez utiliser la méthode savefig()
de l'objet Figure
. Cette méthode est très flexible et vous permet de spécifier divers paramètres pour contrôler la sortie, tels que la résolution (DPI), la taille, le format de fichier, etc. Voici un exemple simple de comment enregistrer un graphique :
importer matplotlib.pyplot en tant que plt
# Création d'un graphique simple
plt.plot([1, 2, 3], [4, 5, 6])
plt.title('Exemple de graphique')
# Enregistrer le graphique dans un fichier PNG
plt.savefig('my_graphic.png')
# Vous pouvez également spécifier le DPI et la taille du graphique
plt.savefig('meu_grafico_alta_resolucao.png', dpi=300)
plt.savefig('my_graphic_size_special.png', figsize=(10, 8))
En plus du PNG, vous pouvez enregistrer des graphiques dans d'autres formats tels que JPG, SVG, PDF, entre autres, simplement en changeant l'extension du fichier dans la méthode savefig()
.
Enregistrement des vues avec Seaborn
Étant donné que Seaborn est construit sur Matplotlib, le processus de sauvegarde des tracés est très similaire. Cependant, Seaborn ajoute quelques fonctionnalités et styles qui peuvent être très utiles. Voici un exemple de comment enregistrer une carte Seaborn :
importer Seaborn en tant que SNS
importer matplotlib.pyplot en tant que plt
# Chargement d'un exemple d'ensemble de données
conseils = sns.load_dataset('conseils')
# Création d'un graphique à barres avec Seaborn
sns.barplot(x='jour', y='total_bill', data=tips)
# Sauvegarde du graphique créé avec Seaborn
plt.savefig('grafico_seaborn.png')
Il est important de noter que lorsque vous utilisez Seaborn, vous travaillez toujours avec des objets Matplotlib. Par conséquent, toutes les fonctionnalités de savefig()
sont toujours disponibles.
Paramètres avancés lors de l'enregistrement des graphiques
Lorsque vous enregistrez des graphiques à inclure dans des publications ou des présentations, vous devrez peut-être configurer des détails supplémentaires tels que la transparence, la qualité et les marges. Voici quelques conseils :
- Transparence : pour enregistrer un graphique avec un arrière-plan transparent, utilisez l'argument
transparent=True
dans la méthodesavefig()
. li> - Qualité : pour les graphiques raster (tels que PNG ou JPG), l'argument
dpi
contrôle la qualité de l'image. Une valeur plus élevée donne une image plus nette et plus grande. - Marges : il arrive parfois que les graphiques soient enregistrés avec des marges indésirables. Vous pouvez utiliser
plt.tight_layout()
avant d'enregistrer la figure pour optimiser l'utilisation de l'espace.
# Sauvegarde avec fond transparent et marges optimisées
plt.savefig('grafico_transparente.png', transparent=True, bbox_inches='tight')
En conclusion, Matplotlib et Seaborn proposent des outils robustes pour créer et enregistrer des visualisations de données. La possibilité de sauvegarder des graphiques de manière efficace et de haute qualité est essentielle pour communiquer les résultats de votre analyse exploratoire de données. Avec de la pratique, vous serez en mesure de créer des visualisations qui non seulement révèlent des informations précieuses sur vos données, mais qui se démarquent également en termes de clarté et d'impact visuel.