7.12. Principios del aprendizaje supervisado: equilibrio de clases
El aprendizaje supervisado es un enfoque fundamental en el campo del aprendizaje automático, donde el modelo se entrena en un conjunto de datos que incluye las entradas y salidas deseadas. Uno de los desafíos más comunes que se enfrentan al entrenar modelos de aprendizaje supervisado es el desequilibrio de clases. El equilibrio de clases es crucial para garantizar que el modelo no desarrolle un sesgo hacia la clase mayoritaria e ignore a la clase minoritaria, lo que puede conducir a resultados engañosos y un rendimiento deficiente en datos invisibles.
En muchos conjuntos de datos reales, la distribución de clases no es uniforme. Por ejemplo, en un conjunto de datos de detección de fraude, la cantidad de transacciones legítimas es mucho mayor que la cantidad de transacciones fraudulentas. Si un modelo se entrena con este conjunto de datos sin ningún tratamiento de equilibrio de clases, simplemente puede aprender a predecir la clase mayoritaria (transacciones legítimas) y aun así lograr una alta precisión, simplemente porque esa es la clase predominante.
Existen varias técnicas para abordar el desequilibrio de clases y se pueden dividir en tres categorías principales: métodos de remuestreo, métodos basados en algoritmos y métodos basados en costos.
Métodos de remuestreo
Los métodos de remuestreo ajustan la distribución de clases en el conjunto de datos. Se pueden dividir en dos tipos: sobremuestreo y submuestreo.
- Sobremuestreo: esta técnica implica replicar ejemplos de la clase minoritaria para aumentar su representación en el conjunto de datos. Un enfoque de sobremuestreo popular es SMOTE (Técnica de sobremuestreo de minorías sintéticas), que crea ejemplos sintéticos de la clase minoritaria en lugar de simplemente replicar los existentes.
- Submuestreo: Por otro lado, el submuestreo implica eliminar ejemplos de la clase mayoritaria para reducir su representación. Si bien esto puede ayudar a equilibrar las clases, también puede provocar la pérdida de información importante.
Es importante tener en cuenta que tanto el sobremuestreo como el submuestreo tienen sus desventajas. El sobremuestreo puede aumentar el riesgo de sobreajuste, ya que el modelo puede terminar memorizando ejemplos replicados. El submuestreo puede descartar información valiosa que podría ser crucial para el aprendizaje del modelo.
Métodos basados en algoritmos
Algunos algoritmos de aprendizaje automático se pueden modificar para abordar mejor el desequilibrio de clases. Por ejemplo, los árboles de decisión y los algoritmos basados en árboles, como Random Forest y Gradient Boosting, le permiten ponderar las clases durante el entrenamiento, lo que puede ayudar a mitigar el sesgo hacia la clase mayoritaria. Otro enfoque es modificar el algoritmo para que se centre más en ejemplos de la clase minoritaria durante el entrenamiento.
Métodos basados en costos
Los métodos basados en costos asignan un costo más alto a la clasificación errónea de la clase minoritaria. La idea es que el modelo será penalizado más severamente por cometer errores en la clase minoritaria que en la clase mayoritaria, animándolo a prestar más atención a la clase minoritaria durante el entrenamiento.
Independientemente del método elegido, es crucial evaluar el modelo en un conjunto de datos de prueba que refleje la distribución real de clases. Esto se puede hacer utilizando métricas de evaluación que tengan en cuenta el desequilibrio de clases, como la matriz de confusión, la precisión, la recuperación, la puntuación F1 y el área bajo la curva ROC (característica operativa del receptor).
Además, es importante realizar un análisis cuidadoso del problema y del conjunto de datos para comprender la naturaleza del desequilibrio de clases. En algunos casos, la clase minoritaria puede ser más importante y, por tanto, justificar una mayor atención durante la formación del modelo. En otros casos, puede ser más apropiado recopilar más datos para la clase minoritaria, si es posible.
En resumen, el equilibrio de clases es un aspecto esencial del aprendizaje supervisado en Machine Learning. Requiere un enfoque cuidadoso y considerado, y la elección de la técnica de equilibrio debe guiarse por el contexto específico del problema en cuestión. Al abordar adecuadamente el desequilibrio de clases, es posible desarrollar modelos más justos, precisos y sólidos que funcionen bien en todos los segmentos del conjunto de datos y proporcionen información valiosa para la toma de decisiones basada en datos.