7.5 Principios del aprendizaje supervisado: métricas de evaluación del desempeño
El aprendizaje supervisado es uno de los enfoques más comunes en el campo del aprendizaje automático (ML), donde se entrena un modelo en un conjunto de datos que incluye las entradas y salidas deseadas. El objetivo es que el modelo aprenda a asignar entradas a las salidas correctas. Para evaluar la efectividad de un modelo de aprendizaje supervisado, se utilizan varias métricas de desempeño. Estas métricas proporcionan información sobre qué tan bien el modelo está realizando sus tareas y son clave para guiar el proceso de optimización y validación.
Precisión
La precisión es una de las métricas más intuitivas y comunes. Se define como la proporción de predicciones correctas en relación con el total de predicciones realizadas por el modelo. Aunque es fácil de entender y aplicar, la precisión puede resultar engañosa en conjuntos de datos desequilibrados, donde una clase es mucho más frecuente que las demás.
Precisión y recuperación
La precisión es la proporción de predicciones positivas correctas en relación con el total de predicciones positivas realizadas por el modelo. La recuperación, también conocida como sensibilidad o tasa de verdaderos positivos, es la proporción de positivos reales que el modelo identificó correctamente. Estas dos métricas son particularmente útiles cuando los costos de los falsos positivos y los falsos negativos son muy diferentes.
Puntuación F1
La puntuación F1 es la media armónica entre precisión y recuperación. Es útil cuando se necesita un equilibrio entre precisión y recuperación y hay una distribución desigual de clases. La puntuación F1 es especialmente importante en situaciones en las que los falsos negativos y los falsos positivos tienen consecuencias muy diferentes.
Área bajo la curva ROC (AUC-ROC)
La curva ROC (característica operativa del receptor) es un gráfico que muestra el rendimiento de un modelo de clasificación en todos los umbrales de clasificación. AUC (área bajo la curva) representa la probabilidad de que un modelo clasifique un ejemplo positivo aleatorio por encima de un ejemplo negativo aleatorio. AUC-ROC es una métrica sólida ya que es insensible a la distribución de clases.
Índice de Gini
El índice Gini es otra métrica derivada de la curva ROC. Se calcula como el doble del área entre la curva ROC y la línea de diagnóstico (que representa un clasificador aleatorio). El índice de Gini es una medida de la capacidad del modelo para discriminar entre clases positivas y negativas.
Pérdida de registro
Log Loss, o pérdida logarítmica, mide el rendimiento de un modelo de clasificación donde el resultado previsto es una probabilidad entre 0 y 1. El castigo por predicciones incorrectas aumenta exponencialmente a medida que la probabilidad prevista diverge de la etiqueta de clase verdadera. La pérdida de registros es una métrica importante cuando se necesita una medida de rendimiento que tenga en cuenta la incertidumbre del pronóstico.
Error cuadrático medio (MSE) y error cuadrático medio (RMSE)
Para problemas de regresión, MSE mide el error cuadrático medio, es decir, la media cuadrática de las diferencias entre los valores previstos y reales. El RMSE es simplemente la raíz cuadrada del MSE y tiene la ventaja de estar en la misma unidad que la variable de respuesta. Ambas son métricas cruciales para evaluar el rendimiento de los modelos de regresión.
Error absoluto medio (MAE)
MAE mide el promedio de los valores absolutos de los errores. A diferencia de MSE o RMSE, MAE no penaliza tanto los errores grandes, lo que puede ser deseable en ciertos contextos donde los valores atípicos no deberían tener un gran impacto en la métrica de rendimiento.
Consideraciones finales
Al elegir la métrica de evaluación del desempeño, es importante considerar el contexto del problema y qué es lo más importante para la aplicación en cuestión. Por ejemplo, en un sistema de detección de fraude, una alta recuperación puede ser más deseable que una alta precisión porque es preferible marcar transacciones legítimas como fraudulentas (falsos positivos) en lugar de pasar por alto transacciones fraudulentas (falsos negativos).
Además, es común utilizar un conjunto de métricas en lugar de depender de una sola métrica para obtener una visión más holística del rendimiento del modelo. La evaluación continua y la comprensión de las métricas son esenciales para desarrollar y mejorar los modelos de Machine Learning y Deep Learning.
Finalmente, es importante señalar que, si bien algunas métricas se pueden calcular fácilmente utilizando bibliotecas de aprendizaje automático como scikit-learn en Python, interpretar las métricas y decidir qué acciones tomar en función de esta información requiere una comprensión profunda de ambos modelos. y dominio de la aplicación.