Todos los cursos > Informática ( TI ) > Inteligencia artificial y Ciencia de los datos ::

De modelo a uso real: despliegue, monitoreo y mejora continua en Machine Learning

Capítulo 10

Tiempo estimado de lectura: 8 minutos

Del modelo “en notebook” al uso real

Un modelo en producción no es solo un archivo con pesos o un .pkl: es una pieza dentro de un sistema que recibe entradas, genera una predicción y provoca una acción. En un producto real, el objetivo no es “predecir”, sino tomar mejores decisiones de forma consistente, medible y segura.

El ciclo Entrada → Predicción → Acción

Entrada: datos que llegan desde una app, un formulario, un sensor o una base de datos (por ejemplo: edad, historial de compras, ubicación aproximada, dispositivo).
Predicción: el servicio de ML devuelve un resultado (por ejemplo: probabilidad de fraude 0.87, categoría “alto riesgo”, recomendación de producto).
Acción: el sistema usa la predicción para actuar (bloquear una transacción, pedir verificación extra, priorizar un ticket, mostrar una recomendación).

En producción, además, hay dos “salidas” invisibles pero críticas: registro (logging) y retroalimentación (feedback). Sin ellas, no podrás monitorear ni mejorar.

Formas comunes de desplegar un modelo

1) Predicción en tiempo real (online)

El modelo se expone como un servicio (API). Se usa cuando la respuesta debe ser inmediata: fraude, scoring, personalización.

Ventaja: decisiones instantáneas.
Riesgo: latencia, caídas, cambios de datos en vivo.

2) Predicción por lotes (batch)

El modelo corre en horarios (cada hora/día) y produce un archivo o tabla con predicciones: segmentación, campañas, priorización de leads.

Ventaja: más simple de operar y más barato.
Riesgo: decisiones menos frescas; feedback puede tardar.

3) En el borde (edge / dispositivo)

El modelo corre en el móvil o dispositivo: detección de voz, visión en cámara, IoT.

Continúa en nuestra aplicación.

Escuche el audio con la pantalla apagada.
Obtenga un certificado al finalizar.
¡Más de 5000 cursos para que explores!

O continúa leyendo más abajo...

Descargar la aplicación

Ventaja: baja latencia y menos dependencia de red.
Riesgo: actualización y control de versiones más complejos.

Integración en un producto: lo que debes definir

Contrato de entrada y salida (API contract)

Define exactamente qué campos llegan, en qué formato y qué devuelve el modelo. Esto evita errores silenciosos.

Elemento	Ejemplo
Entrada	`{"monto": 120.5, "pais": "MX", "antiguedad_dias": 40}`
Salida	`{"score_fraude": 0.87, "umbral": 0.8, "decision": "revisar"}`
Errores	`400` si falta un campo; `503` si el modelo no está disponible

Umbrales y reglas de negocio

Muchas veces la predicción es una probabilidad, pero la acción requiere una regla: “si score > 0.8, pedir verificación”. Esa regla debe estar versionada y ser fácil de ajustar sin reentrenar el modelo.

Fallbacks (plan B)

¿Qué pasa si el servicio de ML falla o tarda demasiado? Define un comportamiento seguro:

Usar una regla simple temporal (heurística).
Degradar a una versión anterior estable.
Responder “no sé” y enviar a revisión manual.

Monitoreo: calidad a lo largo del tiempo

En producción, el mundo cambia: usuarios, estacionalidad, catálogo, fraude, comportamiento. Por eso el monitoreo no es “mirar si el servidor está arriba”, sino seguir la calidad del sistema de ML con el tiempo.

Qué monitorear (mínimo viable)

Salud del servicio: latencia, tasa de errores, timeouts, throughput.
Calidad de datos de entrada: valores faltantes, rangos imposibles, cambios de formato, categorías nuevas.
Deriva de datos (data drift): la distribución de entradas cambia respecto a lo que el modelo “conocía”.
Deriva de concepto (concept drift): la relación entre entradas y resultado real cambia (por ejemplo, nuevas tácticas de fraude).
Rendimiento real: cuando llega la “verdad” (label), medir si el desempeño cae.
Feedback de usuarios: quejas, correcciones, cancelaciones, “esto no me sirve”.

Ejemplos de deriva que sí ocurren

Un campo cambia de unidad (pesos → centavos) y el modelo empieza a exagerar riesgos.
Aparecen nuevas categorías (nuevos países, nuevos dispositivos) y el modelo responde con incertidumbre.
Campañas de marketing atraen un tipo de usuario distinto y el comportamiento cambia.

Guía práctica paso a paso: plan operativo básico

Paso 1: Registrar predicciones de forma útil (sin romper privacidad)

Registra lo necesario para auditar y mejorar. Un registro típico por predicción:

ID de evento y timestamp.
Versión del modelo y versión de reglas/umbral.
Features (o un subconjunto/huella) y validaciones (por ejemplo, conteo de nulos).
Predicción (score/clase) y acción tomada.
Resultado posterior cuando exista (label), enlazado por ID.

{"event_id":"tx_123","ts":"2026-02-03T10:15:00Z","model_version":"fraude_v12","threshold":0.8,"inputs_summary":{"missing":0,"country":"MX"},"score":0.87,"decision":"revisar","action":"2FA"}

Paso 2: Medir desempeño periódicamente (cuando llegue la verdad)

Define una cadencia (diaria/semanal) según el negocio y la velocidad con la que llegan etiquetas reales. Ejemplos:

Fraude: etiquetas pueden tardar días (chargeback), medir semanalmente.
Soporte: etiquetas pueden ser inmediatas (resuelto/no), medir diariamente.

Buenas prácticas operativas:

Medir por segmentos (país, canal, dispositivo, tipo de cliente) para detectar caídas localizadas.
Comparar contra una línea base (modelo anterior o regla simple).
Separar métricas de modelo vs métricas de negocio (por ejemplo, reducción de fraude vs fricción al usuario).

Paso 3: Detectar anomalías antes de que duelan

Configura alertas automáticas. Algunas señales simples y efectivas:

Entrada: sube el % de valores faltantes; aparece una categoría nueva; cambian promedios/percentiles.
Salida: el score promedio cambia bruscamente; aumenta la proporción de una clase (por ejemplo, “alto riesgo” pasa de 5% a 25%).
Servicio: latencia p95 se dispara; errores 5xx aumentan.

Una regla práctica: alerta por cambios relativos (porcentaje) y no solo absolutos, y exige persistencia (por ejemplo, 3 ventanas seguidas) para evitar falsos positivos.

Paso 4: Incorporar retroalimentación de usuarios

El feedback no siempre es una etiqueta perfecta, pero es una señal valiosa:

Botón “esto no aplica”, “no me interesa”, “marcar como error”.
Reversiones: el usuario deshace una recomendación o cancela una acción.
Revisión humana: analistas que confirman o corrigen decisiones.

Convierte feedback en datos utilizables: define categorías claras, evita texto libre como única fuente, y guarda el contexto (qué se mostró, qué se predijo, qué decidió el usuario).

Paso 5: Actualizar el modelo de manera controlada

Actualizar no es “subir un archivo nuevo”. Es un cambio de software con riesgo. Un flujo controlado típico:

Versionado: cada modelo tiene un identificador y metadatos (datos usados, fecha, parámetros, features esperadas).
Validación previa: pruebas automáticas (esquema de entradas, rangos, latencia, consistencia).
Despliegue gradual: liberar a un porcentaje pequeño de tráfico (canary) o hacer A/B.
Monitoreo reforzado: durante el rollout, vigilar métricas clave y tener rollback rápido.
Documentación operativa: qué cambió, por qué, y cómo volver atrás.

Cuándo reentrenar: criterios prácticos de decisión

Reentrenar “por calendario” puede ser útil, pero es mejor combinar calendario con señales. Criterios comunes:

Caída sostenida de rendimiento en producción (global o por segmentos críticos) respecto a la línea base.
Deriva de datos significativa (las entradas ya no se parecen a las del entrenamiento) y el modelo muestra cambios en la distribución de scores.
Cambio de negocio: nuevas políticas, nuevos productos, cambios de precios, expansión a nuevos países.
Nuevas fuentes de datos o features que habilitan mejoras reales.
Coste de error aumentó (por ejemplo, más fraude, más quejas, más pérdidas).

Regla operativa útil: reentrena cuando el impacto esperado (mejoras o reducción de riesgo) supere el coste de reentrenar, validar y desplegar, y cuando puedas medirlo con claridad.

Cómo evaluar mejoras sin interrumpir el servicio

1) “Shadow mode” (modo sombra)

El modelo nuevo recibe las mismas entradas que el modelo actual, pero sus predicciones no afectan decisiones. Sirve para comparar comportamiento, latencia y estabilidad sin riesgo.

Útil cuando: el coste de un error es alto (fraude, salud, finanzas).
Qué comparar: distribución de scores, discrepancias, tiempos de respuesta, casos extremos.

2) Canary release (despliegue canario)

Envías un pequeño porcentaje de tráfico real al modelo nuevo. Si todo va bien, aumentas gradualmente.

Clave: tener métricas y alertas listas, y rollback inmediato.

3) A/B testing

Divides usuarios o eventos en grupos y comparas resultados de negocio (no solo métricas del modelo). Es ideal cuando la “verdad” tarda o cuando importa la experiencia del usuario.

Ejemplo: comparar tasa de conversión, tiempo de resolución, devoluciones, quejas.

Checklist de despliegue seguro (sin interrupción)

Compatibilidad de entradas: el modelo nuevo acepta el mismo esquema (o hay migración controlada).
Latencia dentro de límites: p95/p99 no empeoran más allá de lo aceptable.
Rollback probado: existe un botón/procedimiento para volver a la versión anterior.
Monitoreo por versión: métricas separadas para modelo viejo vs nuevo.
Ventana de observación: tiempo mínimo antes de promover al 100% (según el negocio).

Ahora responde el ejercicio sobre el contenido:

¿Cuál es la diferencia clave entre “shadow mode” y un despliegue canario al evaluar un modelo nuevo sin interrumpir el servicio?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

En shadow mode el modelo nuevo procesa las mismas entradas que el actual, pero sus predicciones no se usan para actuar. En un canary release, el modelo nuevo sí toma decisiones para una fracción pequeña del tráfico real y se escala gradualmente si va bien.