5.13. Análisis exploratorio de datos con Matplotlib y Seaborn: guarde visualizaciones en archivos (PNG, JPG, etc.)
El análisis exploratorio de datos (EDA) es un paso fundamental en el proceso de aprendizaje automático y aprendizaje profundo, ya que permite comprender mejor las características, patrones y relaciones presentes en los datos. Python, al ser uno de los lenguajes más populares para la ciencia de datos, ofrece bibliotecas potentes como Matplotlib y Seaborn para la visualización de datos. Una parte crucial de EDA es la capacidad de guardar visualizaciones creadas en archivos como PNG, JPG y otros formatos, para que puedan usarse en informes, presentaciones o simplemente archivarse para referencia futura.
Matplotlib: Introducción
Matplotlib es una biblioteca de trazado para el lenguaje de programación Python y su paquete de extensión numérica NumPy. Proporciona una interfaz orientada a objetos para incrustar gráficos en aplicaciones que utilizan kits de herramientas GUI como Tkinter, wxPython, Qt o GTK. Además, Matplotlib se puede utilizar en scripts de Python, shells de Python e IPython, el cuaderno Jupyter, servidores de aplicaciones web y cuatro kits de herramientas GUI.
Seaborn: Introducción
Seaborn es una biblioteca de visualización de datos de Python basada en Matplotlib. Proporciona una interfaz de alto nivel para dibujar gráficos estadísticos atractivos e informativos. Seaborn es particularmente adecuado para explorar y comprender datos a través de gráficos de alta calidad. Funciona bien con pandas DataFrames y asume que los datos están en un formato limpio adecuado para visualizaciones.
Guardar visualizaciones con Matplotlib
Para guardar gráficos con Matplotlib, puede utilizar el método savefig()
del objeto Figure
. Este método es muy flexible y le permite especificar varios parámetros para controlar la salida, como resolución (DPI), tamaño, formato de archivo y más. A continuación se muestra un ejemplo básico de cómo guardar un gráfico:
importar matplotlib.pyplot como plt # Creando un gráfico simple plt.plot([1, 2, 3], [4, 5, 6]) plt.title('Ejemplo de gráfico') # Guardar el gráfico en un archivo PNG plt.savefig('mi_gráfico.png') # También puedes especificar el DPI y el tamaño del gráfico. plt.savefig('meu_grafico_alta_resolucao.png', ppp=300) plt.savefig('my_graphic_size_specific.png', figsize=(10, 8))
Además de PNG, puedes guardar gráficos en otros formatos como JPG, SVG, PDF, entre otros, simplemente cambiando la extensión del archivo en el método savefig()
.
Guardar vistas con Seaborn
Debido a que Seaborn está construido sobre Matplotlib, el proceso de guardar gráficos es muy similar. Sin embargo, Seaborn agrega algunas características y estilos que pueden resultar muy útiles. A continuación se muestra un ejemplo de cómo guardar una carta de Seaborn:
importar seaborn como sns importar matplotlib.pyplot como plt # Cargando un conjunto de datos de ejemplo consejos = sns.load_dataset('consejos') # Creando un gráfico de barras con Seaborn sns.barplot(x='día', y='total_bill', datos=propinas) # Guardando el gráfico creado con Seaborn plt.savefig('grafico_seaborn.png')
Es importante tener en cuenta que cuando usas Seaborn, todavía estás trabajando con objetos Matplotlib. Por lo tanto, todas las funciones de savefig()
todavía están disponibles.
Configuración avanzada al guardar gráficos
Cuando guarda gráficos para incluirlos en publicaciones o presentaciones, es posible que necesite configurar detalles adicionales como transparencia, calidad y márgenes. A continuación se ofrecen algunos consejos:
- Transparencia: Para guardar un gráfico con un fondo transparente, utilice el argumento
transparent=True
en el métodosavefig()
. li> - Calidad: para gráficos rasterizados (como PNG o JPG), el argumento
dpi
controla la calidad de la imagen. Un valor más alto da como resultado una imagen más grande y nítida. - Márgenes: A veces, los gráficos se pueden guardar con márgenes no deseados. Puedes usar
plt.tight_layout()
antes de guardar la figura para optimizar el uso del espacio.
# Guardar con fondo transparente y márgenes optimizados plt.savefig('grafico_transparente.png', transparent=True, bbox_inches='tight')
En conclusión, tanto Matplotlib como Seaborn ofrecen herramientas sólidas para crear y guardar visualizaciones de datos. La capacidad de guardar gráficos de manera eficiente y con alta calidad es esencial para comunicar los resultados de su análisis de datos exploratorios. Con la práctica, podrá crear visualizaciones que no solo revelen información valiosa sobre sus datos, sino que también se destaquen en términos de claridad e impacto visual.