Acertar en lo visto vs. generalizar a lo nuevo
Un modelo puede “funcionar” en dos sentidos muy distintos: (1) acertar en ejemplos que ya vio (por ejemplo, los datos con los que se entrenó) y (2) generalizar, es decir, mantener un buen desempeño cuando aparece información nueva que no estaba en el entrenamiento.
La diferencia es crucial porque en la vida real casi todo lo que importa es “lo nuevo”: transacciones futuras, pacientes nuevos, usuarios que cambian de hábitos, productos que se agregan al catálogo, etc.
- Acertar en lo visto: el modelo puede memorizar patrones específicos del conjunto de entrenamiento. Se ve bien “en casa”, pero falla “afuera”.
- Generalizar: el modelo aprendió señales útiles y estables; por eso mantiene rendimiento en datos no vistos.
Una forma simple de pensarlo: si un estudiante se aprende de memoria las respuestas de un examen viejo, sacará 10 en ese examen… pero no necesariamente en uno nuevo. Evaluar un modelo es diseñar “el examen nuevo” y medir cómo le va.
Validación con conjunto de prueba: el “examen final”
Para saber si el modelo generaliza, se separan datos en al menos dos partes:
- Entrenamiento: para ajustar el modelo.
- Prueba (test): para evaluar al final, con datos que el modelo no usó para aprender.
Regla práctica: el conjunto de prueba debe representar el mundo real que te importa (mismo tipo de usuarios, misma forma de recolectar datos, misma época o una época futura si ese es el caso).
- Escuche el audio con la pantalla apagada.
- Obtenga un certificado al finalizar.
- ¡Más de 5000 cursos para que explores!
Descargar la aplicación
Guía práctica paso a paso para evaluar
- 1) Define el objetivo en lenguaje de negocio: ¿qué decisión se tomará con la predicción? ¿qué cuesta equivocarse?
- 2) Elige una métrica alineada al objetivo: no todas las métricas castigan los errores de la misma manera.
- 3) Separa un conjunto de prueba: no lo uses para ajustar parámetros ni para “probar ideas” repetidamente.
- 4) Entrena el modelo con el conjunto de entrenamiento.
- 5) Predice sobre el conjunto de prueba y calcula métricas.
- 6) Compáralo contra una línea base simple: si no supera algo muy básico, no está aportando valor.
- 7) Revisa errores típicos: mira ejemplos donde falla para entender patrones de error (por segmento, por rango de valores, por tipo de usuario, etc.).
La línea base: “¿realmente esto es mejor que lo obvio?”
Antes de celebrar un número, compáralo con una solución simple que cualquiera implementaría sin Machine Learning. Esa comparación evita autoengaños.
- Clasificación (sí/no): una base común es “predecir siempre la clase más frecuente”.
- Regresión (un número): una base común es “predecir el promedio” o “predecir el último valor conocido” (si aplica).
Ejemplo: si en un dataset el 95% de las transacciones no son fraude, un modelo que diga “no fraude” siempre tendrá 95% de exactitud… pero sería inútil.
Métricas intuitivas para clasificación (sí/no)
Imagina un modelo que marca transacciones como fraude o no fraude. Hay cuatro resultados posibles:
- Verdadero positivo (VP): era fraude y lo marcó como fraude.
- Falso positivo (FP): no era fraude y lo marcó como fraude (alarma falsa).
- Verdadero negativo (VN): no era fraude y lo marcó como no fraude.
- Falso negativo (FN): era fraude y lo marcó como no fraude (se escapó).
Exactitud (accuracy): “¿cuántas veces acierto en total?”
Exactitud es el porcentaje de predicciones correctas sobre todas las predicciones.
Cuándo importa: cuando las clases están relativamente balanceadas y el costo de FP y FN es parecido.
Cuándo engaña: cuando una clase es muy dominante (por ejemplo, “no fraude” casi siempre) o cuando un tipo de error es mucho más caro que el otro.
Precisión (precision): “cuando digo ‘positivo’, ¿cuántas veces tengo razón?”
Precisión mide, de todas las veces que el modelo predijo “positivo” (por ejemplo, “fraude”), cuántas eran realmente positivas.
Cuándo importa: cuando los falsos positivos son costosos. Por ejemplo, si bloquear una transacción legítima genera mala experiencia, llamadas al call center o pérdida de ventas.
Ejemplo narrativo (fraude): un banco decide que cada alerta de fraude la revisa un analista humano. Si el modelo tiene baja precisión, el equipo se llena de alertas falsas y se desperdicia tiempo.
Cobertura / Recall: “de los positivos reales, ¿cuántos detecto?”
Recall (también llamado cobertura o sensibilidad) mide, de todos los casos positivos reales, cuántos logró encontrar el modelo.
Cuándo importa: cuando los falsos negativos son costosos. Por ejemplo, dejar pasar fraudes reales, no detectar una enfermedad, no identificar un defecto crítico.
Ejemplo narrativo (fraude): si un fraude que se escapa cuesta mucho dinero, te interesa un recall alto, aunque eso implique revisar más alertas.
Precisión vs. Recall: el “tironeo” típico
En muchos sistemas, mejorar recall suele aumentar falsos positivos (baja precisión), y mejorar precisión suele dejar escapar positivos (baja recall). La métrica “correcta” depende del costo real de cada error.
| Situación | Qué duele más | Métrica que suele priorizarse |
|---|---|---|
| Detección de fraude | Depende: perder dinero (FN) vs. bloquear clientes (FP) | Balance según costos; a menudo se busca recall alto con precisión aceptable |
| Filtro de spam | Marcar un correo importante como spam (FP) | Precisión alta (evitar FP) |
| Detección de enfermedad grave | No detectar un caso real (FN) | Recall alto (evitar FN) |
Métricas intuitivas para predicción numérica (regresión)
Cuando el modelo predice un número (por ejemplo, “cuánto gastará un usuario” o “tiempo de entrega”), evaluar es medir qué tan lejos están las predicciones de los valores reales.
Error promedio absoluto (MAE): “en promedio, ¿cuánto me equivoco?”
Una métrica muy intuitiva es el error absoluto promedio: tomas la diferencia entre predicción y valor real (en valor absoluto) y promedias.
- Si el MAE es 3, significa: “en promedio me equivoco por 3 unidades” (3 dólares, 3 días, 3 puntos, según el caso).
- Cuándo importa: cuando quieres una medida fácil de explicar y los errores grandes no deben dominar toda la evaluación.
Ejemplo narrativo (recomendación / personalización)
Supón que un sistema estima cuántas estrellas (1 a 5) le pondrá un usuario a una película. Si el modelo predice 4.2 y el usuario pone 4, el error es pequeño. Aquí suele importar el error promedio porque el objetivo es aproximar bien preferencias en general, no “acertar perfecto” cada caso.
En cambio, si la recomendación se usa para decidir qué mostrar en portada, quizá también te interese evaluar por segmentos: usuarios nuevos vs. recurrentes, categorías específicas, o si el error es mayor en ciertos tipos de contenido.
Ejemplos completos para elegir métricas (sin fórmulas)
Escenario A: detección de fraude en pagos
- Decisión: bloquear automáticamente o enviar a revisión.
- Errores posibles: bloquear compras legítimas (FP) o dejar pasar fraude (FN).
- Qué medir: precisión (para no saturar revisiones y no molestar clientes) y recall (para que no se escape el fraude). La exactitud por sí sola puede ser engañosa si casi todo es “no fraude”.
- Práctica recomendada: reportar al menos precisión y recall, y revisar el volumen de alertas generado (impacto operativo).
Escenario B: predicción de demanda para inventario
- Decisión: cuánto stock comprar.
- Errores posibles: sobreestimar (sobrestock) o subestimar (quedarse sin stock).
- Qué medir: error promedio (por ejemplo MAE) y, si el negocio lo requiere, analizar por producto o temporada (los promedios globales pueden ocultar fallas en productos clave).
- Línea base útil: “usar el promedio de las últimas semanas” o “usar el mismo día de la semana anterior”. Si el modelo no mejora eso, no compensa la complejidad.
Checklist rápido para no engañarte con la evaluación
- No evalúes con los mismos datos con los que entrenaste si quieres medir generalización.
- Elige métricas según el costo del error, no por costumbre.
- Compara contra una línea base antes de optimizar detalles.
- Mira el desempeño por segmentos: un promedio puede ocultar que el modelo falla justo donde más importa.
- Evita “tocar” el conjunto de prueba repetidamente: si lo usas para decidir cambios, deja de ser un examen imparcial.