Todos los cursos > Informática ( TI ) > Inteligencia artificial y Ciencia de los datos ::

Errores comunes en proyectos de Ciencia de Datos para principiantes: prevención y corrección

Capítulo 10

Tiempo estimado de lectura: 12 minutos

Errores comunes y cómo atacarlos sin rehacer todo

En proyectos de Ciencia de Datos para principiantes, muchos fallos no aparecen “de golpe”: se incuban como pequeñas decisiones mal alineadas. Este capítulo lista errores frecuentes y, para cada uno, te da señales tempranas, el impacto típico y acciones correctivas concretas. La idea es que puedas detectar problemas cuando aún son baratos de corregir.

1) Preguntas ambiguas (el problema no está lo bastante acotado)

Qué es: el equipo trabaja con una pregunta que suena bien (“mejorar la retención”, “optimizar ventas”) pero no define con precisión qué decisión se quiere habilitar, para quién y en qué horizonte.

Señales tempranas:

Distintas personas describen el objetivo con palabras diferentes.
El alcance cambia cada semana (“ya que estamos, también…”).
Las reuniones terminan con tareas, pero sin acuerdos verificables.

Impacto:

Se construyen análisis/modelos que no responden a una decisión concreta.
Se desperdicia tiempo en variables, segmentos o casos de uso irrelevantes.
Se generan resultados difíciles de defender ante negocio.

Acciones correctivas concretas (paso a paso):

Continúa en nuestra aplicación.

Escuche el audio con la pantalla apagada.
Obtenga un certificado al finalizar.
¡Más de 5000 cursos para que explores!

O continúa leyendo más abajo...

Descargar la aplicación

1) Redacta una “pregunta operativa” en una sola frase: “¿Qué acción tomaremos si el resultado es A vs B?”
2) Define el objeto y el horizonte: cliente/usuario/producto y ventana temporal (7/30/90 días, etc.).
3) Lista 3 decisiones posibles que el proyecto debería habilitar (por ejemplo: priorizar campañas, ajustar precios, cambiar onboarding).
4) Escribe 5 ejemplos y 5 contraejemplos de lo que entra y no entra en el alcance.
5) Congela el alcance por iteración: cualquier cambio va a una “cola de siguientes versiones”.

Plantilla breve (1 minuto):
Decisión: ________
Para quién: ________
Cuándo: ________
Qué cambia si sale alto vs bajo: ________
Fuera de alcance: ________

2) Métricas mal definidas (o imposibles de medir con los datos reales)

Qué es: se elige una métrica que no representa el objetivo real, o que no se puede calcular de forma consistente con los datos disponibles (definiciones cambiantes, ventanas inconsistentes, duplicados).

Señales tempranas:

Dos dashboards muestran números distintos para “lo mismo”.
La métrica cambia de definición durante el proyecto.
La métrica se calcula con campos que tienen muchos nulos o reglas ad hoc.

Impacto:

Optimización de lo incorrecto (mejoras “en papel” que empeoran el negocio).
Comparaciones inválidas entre periodos o segmentos.
Imposibilidad de evaluar si el proyecto funcionó.

Acciones correctivas concretas:

1) Crea un “diccionario de métricas” con: nombre, fórmula, ventana temporal, unidad de análisis, exclusiones y fuente de datos.
2) Define reglas de desempate: qué hacer con duplicados, reembolsos, usuarios anónimos, etc.
3) Valida la métrica con 20 casos manuales (muestreo) y documenta discrepancias.
4) Alinea la métrica con una decisión: si la métrica sube, ¿qué harás distinto?

Elemento	Ejemplo de especificación
Unidad	Usuario (id_usuario)
Ventana	Retención a 30 días desde alta
Exclusiones	Usuarios internos, cuentas de prueba
Fuente	Tabla eventos_app + tabla usuarios

3) Datos incompletos o no representativos (huecos, sesgos, cobertura limitada)

Qué es: el dataset no cubre el fenómeno que quieres estudiar: faltan periodos, segmentos, variables clave o hay sesgos de captura (solo usuarios logueados, solo un canal, etc.).

Señales tempranas:

Muchos nulos en variables “críticas”.
Saltos extraños en series temporales (cambios de tracking, migraciones).
El modelo/insight funciona “muy bien” en un segmento y falla en otros.

Impacto:

Conclusiones frágiles y decisiones injustas o ineficientes.
Modelos que no generalizan al mundo real.
Re-trabajo al descubrir tarde que faltaba una fuente.

Acciones correctivas concretas (paso a paso):

1) Haz un “mapa de cobertura”: por periodo, canal, país, dispositivo, tipo de cliente.
2) Cuantifica el faltante: porcentaje de nulos por columna y por segmento (no solo global).
3) Identifica variables proxy si falta la variable ideal (ej.: “visitas” como proxy de “interés”).
4) Define un criterio mínimo de completitud para seguir (ej.: “<5% nulos en variables A/B para el segmento objetivo”).
5) Si el faltante es estructural, cambia el enfoque: análisis descriptivo por segmentos confiables, o rediseño de captura antes de modelar.

Checklist rápido de cobertura:
- ¿Tengo datos del último ciclo completo (p.ej., 12 meses)?
- ¿Están todos los canales relevantes?
- ¿Los segmentos críticos tienen tamaño suficiente?
- ¿Hubo cambios de tracking/definición en el periodo?

4) Fuga de información (leakage): el modelo “ve” el futuro

Qué es: se usan variables que contienen información que no estaría disponible en el momento real de la predicción/decisión (por ejemplo, un campo actualizado después del evento objetivo, o agregaciones calculadas con datos posteriores).

Señales tempranas:

Resultados “demasiado buenos para ser verdad” en validación.
Variables con nombres sospechosos: “estado_final”, “fecha_cierre”, “flag_cancelado”.
Features agregadas sin control temporal (rolling mal definido, joins sin fecha).

Impacto:

Modelos que fallan al desplegarse o al simular en producción.
Decisiones basadas en una ilusión de performance.
Pérdida de confianza del negocio y del equipo.

Acciones correctivas concretas (paso a paso):

1) Define el “momento de predicción” (timestamp exacto) y qué datos existían hasta ahí.
2) Etiqueta cada variable con su “disponibilidad temporal”: antes/durante/después del evento objetivo.
3) Rehaz features con ventanas hacia atrás (solo pasado) y joins con condición temporal.
4) Cambia el esquema de validación a uno que respete el tiempo (split temporal) cuando aplique.
5) Audita las top features: revisa manualmente las 10 más importantes y confirma que no filtren futuro.

Regla práctica anti-leakage:
Si una columna puede cambiar después del momento de decisión, no puede ser feature.
Si una agregación usa datos posteriores a t0, es fuga.

5) Confundir correlación con causalidad (atribuir “causas” sin diseño)

Qué es: interpretar una relación observada como si una variable causara la otra, sin controlar confusores ni considerar selección, simultaneidad o variables omitidas.

Señales tempranas:

Frases como “X provoca Y” basadas solo en un gráfico o una regresión simple.
La relación cambia al segmentar (Simpson) o al incluir controles.
La variable “causa” podría ser consecuencia (dirección inversa).

Impacto:

Intervenciones que no mejoran el resultado (o lo empeoran).
Asignación incorrecta de presupuesto/recursos.
Decisiones injustas si se atribuyen causas a características sensibles.

Acciones correctivas concretas:

1) Cambia el lenguaje: de “causa” a “se asocia con” hasta tener evidencia causal.
2) Lista confusores plausibles y verifica si están medidos (o si puedes aproximarlos).
3) Haz pruebas de robustez: segmentación, controles, sensibilidad a variables omitidas (cuando sea posible).
4) Si necesitas causalidad para decidir, exige un diseño adecuado: experimento, cuasi-experimento o estrategia de identificación (según el caso).

Situación	Riesgo típico	Corrección mínima
Usuarios que usan una función “premium” compran más	Selección: los más motivados la usan	Comparar grupos similares, controlar por actividad previa
Más emails enviados, más bajas	Dirección inversa: se envían más a los que ya iban a irse	Analizar por cohortes y timing, considerar intervención

6) Validación insuficiente (o mal alineada al uso real)

Qué es: evaluar con un esquema que no refleja cómo se usará el resultado (por ejemplo, mezclar datos de distintos periodos, no respetar grupos, no medir estabilidad por segmento, no hacer pruebas de estrés).

Señales tempranas:

Solo se reporta una métrica promedio sin intervalos ni segmentación.
No hay comparación con un baseline simple.
El rendimiento cae mucho en un periodo reciente.

Impacto:

Sobreestimación del desempeño y sorpresas en producción.
Decisiones que funcionan para “el promedio” pero fallan en segmentos clave.
Riesgo operacional (alertas falsas, priorizaciones erróneas).

Acciones correctivas concretas:

1) Define el baseline (regla simple o modelo trivial) y exige superarlo.
2) Evalúa por segmentos relevantes (país, canal, antigüedad, etc.).
3) Prueba estabilidad temporal: desempeño en periodos recientes vs antiguos.
4) Agrega pruebas de estrés: datos con ruido, faltantes simulados, cambios de distribución.
5) Documenta límites: “no usar en X segmento” si no hay evidencia suficiente.

7) Exceso de complejidad (modelos sofisticados sin necesidad)

Qué es: elegir técnicas complejas por interés técnico, sin que aporten valor incremental frente a alternativas más simples, interpretables y mantenibles.

Señales tempranas:

El pipeline tarda mucho en entrenar y nadie entiende las features.
Pequeñas mejoras marginales a costa de gran complejidad.
Dependencia de muchos hiperparámetros y ajustes manuales.

Impacto:

Mayor costo de mantenimiento y riesgo de fallos.
Dificultad para explicar resultados y lograr adopción.
Menor reproducibilidad y más deuda técnica.

Acciones correctivas concretas (paso a paso):

1) Empieza con lo simple: baseline + modelo interpretable.
2) Define “presupuesto de complejidad”: tiempo de entrenamiento, dependencias, facilidad de explicación.
3) Exige evidencia de mejora (no solo en promedio, también por segmento y estabilidad).
4) Simplifica features: elimina variables redundantes, reduce dimensionalidad solo si aporta.
5) Prioriza mantenibilidad: menos pasos, menos fuentes, menos magia.

Regla práctica:
Si no puedes explicar en 2 minutos qué hace el modelo y por qué es mejor,
probablemente es demasiado complejo para esta etapa.

8) Comunicación sin contexto (resultados sin decisión, sin límites, sin “qué sigue”)

Qué es: presentar métricas, gráficos o modelos sin conectar con la decisión, el riesgo, las suposiciones y las condiciones de uso. No es “falta de storytelling”; es falta de contexto operativo.

Señales tempranas:

La audiencia pregunta “¿y esto qué significa para mí?”
Se discute el gráfico en lugar de la decisión.
No queda claro qué se recomienda hacer mañana.

Impacto:

Baja adopción: el trabajo se queda en un informe.
Decisiones incorrectas por malinterpretación.
Repetición de reuniones para “explicar de nuevo”.

Acciones correctivas concretas:

1) Abre con la decisión: “Recomendamos X porque…”
2) Incluye condiciones de validez: para qué segmentos, periodos y supuestos aplica.
3) Muestra trade-offs: qué se gana y qué se pierde con la recomendación.
4) Define un plan de acción: próximos pasos, responsables, y cómo se medirá el impacto.
5) Añade un “riesgo principal” y cómo mitigarlo (p.ej., monitoreo, piloto).

Elemento mínimo	Ejemplo
Recomendación	Priorizar retención en cohortes nuevas con intervención A
Por qué	Mayor uplift esperado en 30 días vs cohortes antiguas
Límites	No aplicar en canal B por baja cobertura de datos
Cómo medir	Métrica definida + ventana + baseline

9) No considerar restricciones legales/éticas (uso indebido de datos o decisiones dañinas)

Qué es: recolectar, procesar o usar datos sin permisos adecuados, sin minimización, sin seguridad, o construir decisiones que generan discriminación, invasión de privacidad o incumplimiento normativo.

Señales tempranas:

Se piden datos sensibles “por si acaso”.
No está claro quién autorizó el uso de una fuente.
Se planea automatizar decisiones con impacto en personas sin revisión.

Impacto:

Riesgo legal, reputacional y operativo.
Bloqueo del proyecto por auditorías o seguridad.
Daño a usuarios/clientes por decisiones injustas.

Acciones correctivas concretas (paso a paso):

1) Aplica minimización: usa solo lo necesario para el objetivo.
2) Verifica base legal y permisos: consentimiento, contrato, interés legítimo (según aplique) y políticas internas.
3) Clasifica datos: sensibles/no sensibles, identificables/pseudonimizados.
4) Evalúa impacto: quién puede salir perjudicado, sesgos potenciales, y mitigaciones.
5) Define guardrails: revisiones humanas, umbrales, explicabilidad, logging y auditoría.

Preguntas de control:
- ¿Necesitamos realmente este dato para la decisión?
- ¿Podemos usarlo agregado o anonimizado?
- ¿La decisión afecta derechos, acceso o precios?
- ¿Hay un proceso de revisión y apelación?

Checklist final: “salud del proyecto” (rápido y accionable)

Usa esta lista como revisión semanal o antes de presentar resultados.

Objetivo: ¿La pregunta operativa está escrita y todos la repiten igual?
Decisión: ¿Está claro qué acción se tomará con el resultado?
Métrica: ¿Existe diccionario de métricas con fórmula, ventana y exclusiones?
Datos: ¿La cobertura por segmento/periodo es suficiente y conocida?
Calidad: ¿Los nulos/duplicados críticos están cuantificados por segmento?
Temporalidad: ¿El “momento de predicción” está definido y respetado?
Leakage: ¿Se auditó manualmente la disponibilidad temporal de las top features?
Validación: ¿Hay baseline, evaluación por segmentos y estabilidad temporal?
Complejidad: ¿La solución más simple que funciona está priorizada?
Comunicación: ¿La recomendación incluye límites, trade-offs y plan de acción?
Riesgos: ¿Hay un riesgo principal identificado y mitigación?
Legal/ética: ¿Permisos, minimización y guardrails están documentados?

Prácticas mínimas para reducir riesgos desde el inicio

Documentar supuestos (para evitar “acuerdos invisibles”)

Escribe supuestos en un documento vivo: definiciones, exclusiones, ventanas, población objetivo.
Marca supuestos “frágiles” (si cambian, cambian conclusiones).
Incluye una sección: Qué NO sabemos todavía y cómo lo validaremos.

Reproducibilidad (para que el resultado sea verificable)

Fija versiones de dependencias y configura semillas cuando aplique.
Automatiza el pipeline (ingesta → preparación → entrenamiento/análisis → evaluación) para ejecutarlo de punta a punta.
Guarda artefactos: dataset de entrenamiento (o snapshot), parámetros, métricas y fecha de ejecución.

Revisión por pares (para detectar fallos antes)

Revisión de código: joins temporales, filtrados, tratamiento de nulos, cálculo de métricas.
Revisión de lógica: ¿hay leakage?, ¿hay confusores obvios?, ¿la validación refleja el uso real?
Revisión de comunicación: ¿la recomendación es accionable y con límites claros?

Control de cambios (para no perder trazabilidad)

Versiona: datos (snapshots), código, definiciones de métricas y supuestos.
Registra cambios con motivo e impacto esperado (changelog).
Evita “cambios silenciosos”: cualquier ajuste de definición debe quedar documentado y fechado.

Plantilla mínima de registro de cambios:
Fecha: ____
Cambio: ____
Motivo: ____
Impacto esperado: ____
Aprobado por: ____

Ahora responde el ejercicio sobre el contenido:

Para prevenir la fuga de información (leakage) en un modelo, ¿qué acción es la más adecuada según las prácticas recomendadas?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

La fuga ocurre cuando el modelo usa información del futuro. Para evitarla, se debe fijar el momento de predicción y reconstruir variables/agregaciones con control temporal (solo pasado), usando joins y ventanas que respeten esa disponibilidad.