Todos los cursos > Informática ( TI ) > Inteligencia artificial y Ciencia de los datos ::

De datos a predicciones: el flujo de trabajo de un modelo de Machine Learning

Capítulo 4

Tiempo estimado de lectura: 9 minutos

El flujo de trabajo completo: de una necesidad a una predicción

Un proyecto de Machine Learning funciona mejor cuando se trata como una cadena de etapas conectadas. Cada etapa toma un “insumo” (lo que tienes) y produce un “entregable” (lo que necesitas para avanzar). Si una etapa queda débil (por ejemplo, datos mal preparados), el resto del flujo se vuelve frágil aunque el modelo sea sofisticado.

Cadena de etapas (visión general)

Puedes pensar el proceso como una línea de producción: defines qué quieres lograr, preparas los materiales, eliges la herramienta, la entrenas, la pruebas, la ajustas y finalmente la usas en el mundo real.

Definir objetivo → entregable: enunciado del problema + métrica de éxito + restricciones
Preparar datos → entregable: conjunto de datos limpio y listo
Elegir modelo → entregable: candidato(s) de modelo + plan de entrenamiento
Entrenar → entregable: modelo entrenado
Validar y evaluar → entregable: reporte de evaluación
Ajustar → entregable: modelo mejorado + configuración final
Usar (desplegar) → entregable: predicciones en operación + monitoreo

1) Definir el objetivo (qué decisión quieres mejorar)

Antes de tocar datos, define el objetivo en términos de una decisión o resultado medible. Un objetivo útil responde: “¿Qué predicción necesito?”, “¿Para qué la usaré?” y “¿Cómo sabré si funciona?”.

Checklist práctico

Salida esperada: ¿qué quieres predecir? (p. ej., “probabilidad de abandono”, “tiempo de entrega”, “categoría de ticket”).
Unidad de predicción: ¿sobre qué entidad predices? (cliente, transacción, producto, día).
Horizonte: ¿para cuándo sirve la predicción? (próxima semana, próximo mes, en tiempo real).
Métrica de éxito: ¿qué significa “mejor”? (p. ej., reducir falsos positivos, aumentar aciertos, mejorar tiempos).
Restricciones: latencia, costo, explicabilidad, privacidad, disponibilidad de datos.

Ejemplo: “Predecir si un cliente cancelará en los próximos 30 días para priorizar acciones de retención; éxito = aumentar retención sin saturar al equipo; restricción = predicción diaria en menos de 1 segundo por cliente”.

2) Preparar los datos (convertir registros en un conjunto utilizable)

En esta etapa conviertes datos crudos en un conjunto consistente que el modelo pueda aprender. El entregable no es “un archivo”, sino un conjunto de datos que representa el objetivo de forma fiel y sin trampas.

Continúa en nuestra aplicación.

Escuche el audio con la pantalla apagada.
Obtenga un certificado al finalizar.
¡Más de 5000 cursos para que explores!

O continúa leyendo más abajo...

Descargar la aplicación

Guía paso a paso

Reunir fuentes: identifica tablas, eventos, logs o archivos que contienen señales útiles.
Definir la etiqueta (si aplica): la “respuesta correcta” que el modelo intentará aprender (p. ej., canceló/no canceló). Debe estar alineada con el objetivo y el horizonte temporal.
Construir variables (features): transforma datos en columnas informativas (p. ej., “número de compras en 30 días”, “días desde última actividad”).
Limpiar: tratar valores faltantes, duplicados, formatos inconsistentes, outliers evidentes según el contexto.
Evitar fuga de información: no uses datos que “conocen el futuro” respecto al momento en que se haría la predicción (p. ej., usar un campo que se llena después de la cancelación).
Particionar: separar datos para entrenamiento y prueba (y a veces validación) antes de tomar decisiones finales.

Entregable de esta etapa

Conjunto limpio y listo: una tabla (o conjunto de tablas) donde cada fila representa la unidad de predicción, con columnas de variables y una etiqueta (si es supervisado), además de un diccionario de datos (qué significa cada columna, cómo se calculó y en qué fecha/ventana).

Por qué se separan datos en entrenamiento y prueba (sin fórmulas)

Separar datos es una forma de comprobar si el modelo realmente aprendió patrones útiles o si solo “memorizó” peculiaridades del conjunto con el que se entrenó.

Entrenamiento: es el material con el que el modelo aprende. Aquí el modelo ajusta sus reglas internas para encajar con ejemplos conocidos.
Prueba: es un examen con preguntas que el modelo no vio durante el estudio. Sirve para estimar cómo se comportará con casos nuevos en la vida real.

Si evalúas con los mismos datos con los que entrenaste, puedes obtener una impresión demasiado optimista: el modelo puede verse excelente “en casa” y fallar “afuera”. La separación reduce ese autoengaño y ayuda a tomar decisiones más seguras sobre si el modelo está listo para usarse.

Analogía: estudiar con una lista de ejercicios (entrenamiento) y luego rendir un examen con ejercicios distintos (prueba). Sacar buena nota en la lista no garantiza que pasarás el examen; el examen mide generalización.

3) Elegir un modelo (seleccionar una herramienta adecuada al objetivo)

Elegir un modelo no es buscar “el más avanzado”, sino el que mejor se adapta a tus restricciones y al tipo de señal en los datos. En la práctica, se empieza con modelos base (baseline) y luego se incrementa complejidad si aporta valor.

Criterios prácticos de elección

Interpretabilidad: ¿necesitas explicar decisiones a negocio o auditoría?
Rendimiento: ¿qué tan preciso debe ser para que valga la pena?
Velocidad: ¿entrenamiento y predicción deben ser rápidos?
Tipo de datos: tabulares, texto, imágenes, series temporales.
Mantenimiento: facilidad para reentrenar y monitorear.

Entregable de esta etapa

Candidato(s) de modelo + plan: una lista corta de modelos a probar, la métrica principal, y un esquema de entrenamiento (qué datos, qué variables, qué partición, qué validación).

4) Entrenar (hacer que el modelo aprenda con el conjunto de entrenamiento)

Entrenar significa alimentar al modelo con ejemplos del conjunto de entrenamiento para que encuentre patrones que conecten variables con la salida deseada. Aquí se toman decisiones como: qué variables usar, cómo codificarlas y cómo manejar el desbalance de clases si existe.

Buenas prácticas durante el entrenamiento

Guardar versiones: datos, código y configuración para poder reproducir resultados.
Empezar con un baseline: un modelo simple o una regla básica para tener un punto de comparación.
Registrar experimentos: qué cambiaste y qué efecto tuvo (sin depender de memoria).

Entregable de esta etapa

Modelo entrenado: un artefacto guardado (archivo o registro) que puede recibir datos nuevos y producir una predicción, junto con su configuración.

5) Validar y evaluar (medir desempeño con datos no usados en el entrenamiento)

Validar/evaluar es medir si el modelo cumple el objetivo. Aquí comparas el desempeño en datos que el modelo no vio al entrenar y revisas errores típicos para entender riesgos.

Qué revisar en el reporte de evaluación

Métrica principal: la que definiste como éxito (p. ej., precisión, recall, AUC, error medio, etc.).
Errores importantes: qué casos falla y por qué (segmentos, rangos, categorías).
Estabilidad: si el rendimiento cambia mucho entre periodos o grupos.
Coste de errores: qué duele más: falsos positivos o falsos negativos, y cómo se refleja en la operación.

Entregable de esta etapa

Reporte de evaluación: métricas, gráficos/tablas de errores, análisis por segmentos y recomendaciones (por ejemplo, ajustar umbral, recolectar más datos, cambiar variables).

6) Ajustar (mejorar el modelo con cambios controlados)

Ajustar es iterar: cambias una cosa, vuelves a entrenar, vuelves a evaluar y comparas contra el baseline. El objetivo es mejorar sin perder control ni introducir fuga de información.

Palancas comunes de ajuste

Variables: agregar, quitar o redefinir features (p. ej., ventanas temporales distintas).
Configuración del modelo: parámetros que controlan complejidad y regularización.
Umbral de decisión: si el resultado se usa para “sí/no”, ajustar el punto de corte según el costo de errores.
Datos: mejorar calidad, balancear clases, ampliar cobertura temporal.

Entregable de esta etapa

Modelo mejorado + configuración final: la versión seleccionada con evidencia de por qué es mejor (comparación contra baseline y versiones anteriores).

7) Usar el modelo (pasar de experimento a predicciones reales)

Usar un modelo implica integrarlo en un proceso: recibir datos nuevos, generar predicciones, entregarlas a un sistema o persona, y monitorear que siga funcionando como se espera.

Formas típicas de uso

Batch: predicciones por lotes (p. ej., cada noche para todos los clientes).
Tiempo real: predicción al momento (p. ej., al crear una transacción).
Asistido: el modelo sugiere y un humano decide (p. ej., priorización de casos).

Qué debes definir para operar

Entrada: qué datos llegan, con qué frecuencia y validaciones.
Salida: formato de predicción (probabilidad, clase, ranking) y dónde se consume.
Monitoreo: alertas por cambios en datos, caída de rendimiento, o desviaciones en distribución.
Reentrenamiento: cuándo y con qué criterio se actualiza el modelo.

Entregable de esta etapa

Predicciones en operación: un flujo funcionando (API, job, pipeline) que produce predicciones, más tableros o registros de monitoreo.

Diagrama narrado del flujo (etapas y entregables)

[1. Definir objetivo] --produce--> (Documento de objetivo: salida, métrica, restricciones) --alimenta--> [2. Preparar datos] --produce--> (Conjunto limpio y listo + diccionario de datos) --alimenta--> [3. Elegir modelo] --produce--> (Modelo(s) candidato(s) + plan de entrenamiento) --alimenta--> [4. Entrenar] --produce--> (Modelo entrenado versionado) --alimenta--> [5. Validar/Evaluar] --produce--> (Reporte de evaluación + análisis de errores) --alimenta--> [6. Ajustar] --produce--> (Modelo final + configuración) --alimenta--> [7. Usar] --produce--> (Predicciones + monitoreo + rutina de reentrenamiento)

Mini guía práctica: aplicar el flujo a un caso típico

Caso: priorizar tickets de soporte para reducir tiempos de respuesta.

Etapa	Qué haces	Entregable
Definir objetivo	Decidir si el ticket es “urgente” para atenderlo antes; definir qué significa urgente y cómo medir mejora	Objetivo + métrica (p. ej., reducción de SLA incumplido) + restricciones
Preparar datos	Unir tickets, tiempos, etiquetas históricas; crear variables (canal, tema, cliente, historial); separar train/test por periodo	Dataset limpio listo para entrenar
Elegir modelo	Probar un baseline simple y un modelo más potente si hace falta; decidir cómo se consumirá (ranking o clase)	Plan de experimentos
Entrenar	Entrenar con datos de entrenamiento; guardar versión y configuración	Modelo entrenado
Evaluar	Medir en prueba; revisar en qué tipos de tickets falla; estimar impacto operativo	Reporte de evaluación
Ajustar	Mejorar variables (p. ej., señales de texto resumidas), ajustar umbral según capacidad del equipo	Modelo final seleccionado
Usar	Generar un ranking diario o en tiempo real; monitorear cambios en distribución de tickets	Predicciones operativas + monitoreo

Ahora responde el ejercicio sobre el contenido:

¿Cuál es el propósito principal de separar los datos en conjuntos de entrenamiento y prueba en un proyecto de Machine Learning?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

La separación permite evaluar el desempeño con datos no vistos durante el entrenamiento, estimando cómo funcionará el modelo en situaciones reales y evitando el autoengaño de medirlo con los mismos datos con los que aprendió.