Marco paso a paso de Ciencia de Datos: ejecución de punta a punta con un caso guía

Capítulo 11

Tiempo estimado de lectura: 9 minutos

+ Ejercicio

Un caso guía para recorrer el ciclo completo (y repetirlo)

En este capítulo integrarás todas las etapas en un recorrido aplicado y reutilizable, usando un caso guía sencillo: reducir el abandono (churn) en un servicio de suscripción. La idea no es “hacer un modelo”, sino ejecutar un proceso de punta a punta con artefactos concretos que puedas copiar/pegar en tu próximo proyecto.

Mapa del recorrido (plantilla operativa)

  • Etapa 1: Enunciado del problema (1 página).
  • Etapa 2: Matriz de métricas (negocio + modelo + operación).
  • Etapa 3: Diccionario mínimo de datos (tabla corta y mantenible).
  • Etapa 4: Cuaderno de EDA (preguntas, checks, hallazgos).
  • Etapa 5: Tabla de resultados (comparación de alternativas).
  • Etapa 6: Análisis de sensibilidad (umbrales, costos, drift).
  • Etapa 7: Guion de presentación (decisión + plan).
  • Etapa 8: Criterios de próximos pasos y ciclo de mejora.

Etapa 1 — Enunciado del problema (artefacto: 1 página)

Objetivo: convertir una necesidad (“bajar churn”) en un documento ejecutable que alinee a negocio, datos y operación.

Plantilla de enunciado (rellenable)

Proyecto: Reducción de abandono (churn) en suscripciones mensuales

1) Decisión a habilitar:
   - ¿A quién contactar/ofertar para reducir la probabilidad de abandono en los próximos 30 días?

2) Pregunta analítica:
   - ¿Qué clientes tienen mayor probabilidad de abandonar en los próximos 30 días?

3) Población y ventana:
   - Población: clientes activos al inicio de cada semana.
   - Horizonte: churn en 30 días.
   - Frecuencia de scoring: semanal.

4) Acciones disponibles:
   - Contacto proactivo (email/llamada), oferta de retención, ajuste de plan.

5) Restricciones:
   - Capacidad del equipo: 2.000 contactos/semana.
   - No contactar clientes con reclamo abierto crítico.

6) Supuestos y riesgos:
   - El churn observado refleja abandono real (no solo impago temporal).
   - Riesgo de sesgo: campañas previas afectan el comportamiento.

7) Entregables:
   - Lista priorizada de clientes + explicación de drivers.
   - Recomendaciones de intervención y medición.

Checklist rápido: ¿La decisión es clara? ¿La ventana temporal está definida? ¿Existe una acción realista y capacidad operativa?

Etapa 2 — Matriz de métricas (artefacto: tabla de métricas)

Objetivo: aterrizar “éxito” en métricas que cubran negocio, desempeño analítico y operación. La matriz evita que el proyecto “gane en AUC” pero pierda dinero o sea imposible de ejecutar.

CategoríaMétricaDefiniciónObjetivo/UmbralTrade-off típico
NegocioRetención incremental% churn evitado atribuible a la intervención> 1.5 pp mensualRequiere experimento o cuasi-experimento
NegocioROI campaña(Beneficio - costo) / costo> 0.2Depende de costos reales y LTV
OperaciónContactos/semanaVolumen ejecutable por el equipo≤ 2.000Limita recall; obliga a priorizar
OperaciónTasa de contacto válido% con canal disponible y permitido> 90%Calidad de datos de contacto
ModeloPrecision@KDe los K contactados, % que iba a churn> 25%Sube al bajar K; afecta cobertura
ModeloRecall@KDe los que churn, % capturado en top K> 35%Sube con K; choca con capacidad
RiesgoParidad por segmentoBrecha de performance entre grupos< 5 ppPuede requerir ajustes/monitoreo

Tip práctico: define K desde operación (capacidad) y luego optimiza Precision@K/Recall@K, no al revés.

Continúa en nuestra aplicación.
  • Escuche el audio con la pantalla apagada.
  • Obtenga un certificado al finalizar.
  • ¡Más de 5000 cursos para que explores!
O continúa leyendo más abajo...
Download App

Descargar la aplicación

Etapa 3 — Identificar y entender datos (artefacto: diccionario mínimo)

Objetivo: tener un “contrato” de datos pequeño pero suficiente para trabajar y para auditar. Un diccionario mínimo reduce idas y vueltas y acelera el EDA.

Diccionario mínimo (ejemplo)

CampoTipoDescripciónGranularidadReglas/Notas
customer_idstringIdentificador únicoclienteNo nulos, único
snapshot_datedateFecha de corte para featurescliente-semanaDefine “lo que se sabía”
churn_30dint (0/1)Abandona dentro de 30 díascliente-semanaEtiqueta; cuidado con fugas
tenure_monthsintAntigüedadcliente0..N
plan_typecategoricalTipo de planclienteCatálogo controlado
monthly_feefloatPrecio mensualclienteMoneda y cambios históricos
tickets_30dintTickets soporte últimos 30 díascliente-semanaVentana móvil
usage_7dfloatUso últimos 7 díascliente-semanaDefinir unidad (min, eventos)
late_payment_60dint (0/1)Mora en 60 díascliente-semanaPuede ser predictor fuerte

Checklist rápido: ¿La etiqueta está definida sin ambigüedad? ¿Las features respetan el “tiempo” (no usan información posterior al snapshot)? ¿La granularidad es consistente?

Etapa 4 — EDA aplicado (artefacto: cuaderno de EDA)

Objetivo: transformar datos crudos en entendimiento accionable y en un set de features/segmentos plausibles. Aquí el entregable es un cuaderno (notebook) con preguntas, checks, gráficos y hallazgos, no solo código.

Estructura sugerida del cuaderno

  • 0. Setup: carga, cortes por fecha, definición de cohortes.
  • 1. Sanidad: nulos, duplicados, rangos, cardinalidades.
  • 2. Etiqueta: tasa de churn global y por cohortes (tenure, plan).
  • 3. Drivers: relación churn vs uso, tickets, mora, precio.
  • 4. Segmentos: combinaciones útiles (p. ej., baja antigüedad + bajo uso).
  • 5. Implicaciones: hipótesis de intervención (qué harías distinto).

Bloques de código típicos (pseudo-ejemplo)

# 1) Tasa base de churn (por semana de snapshot)
churn_rate = df.groupby('snapshot_date')['churn_30d'].mean()

# 2) Churn por deciles de uso
df['usage_decile'] = pd.qcut(df['usage_7d'], 10, duplicates='drop')
churn_by_usage = df.groupby('usage_decile')['churn_30d'].mean()

# 3) Tabla rápida de nulos
nulls = df.isna().mean().sort_values(ascending=False)

# 4) Chequeo de fuga temporal (ejemplo conceptual)
# Verifica que ninguna feature use eventos posteriores a snapshot_date

Hallazgos esperables (ejemplo de redacción)

  • El churn es mayor en tenure < 3 meses y uso_7d bajo.
  • tickets_30d altos se asocian a churn, pero puede reflejar problemas de producto (acción: mejorar onboarding/soporte).
  • late_payment_60d predice churn; definir si la intervención es financiera (recordatorios) o de valor (beneficios).

Salida mínima del EDA: 3–5 insights + 2–3 hipótesis de intervención + lista de variables candidatas y alertas de calidad.

Etapa 5 — Resultados comparables (artefacto: tabla de resultados)

Objetivo: comparar alternativas de forma justa (baseline vs modelo vs reglas) con métricas alineadas a la matriz. La tabla de resultados es el “resumen ejecutivo técnico”.

Tabla de resultados (ejemplo)

AlternativaQué esPrecision@2000Recall@2000Notas operativasRiesgos
BaselineContactar aleatoriotasa basebajoSimpleDesperdicia capacidad
ReglasSi uso bajo y tenure bajomediamedioExplicable, rápidoPuede ser rígido
Modelo AClasificador interpretablealtamedio-altoRequiere pipelineDrift por cambios de producto
Modelo BModelo más complejomuy altaaltoMás mantenimientoMenos explicabilidad

Regla práctica: incluye siempre una alternativa “reglas” como control de simplicidad; si el modelo no mejora de forma material, no se justifica.

Etapa 6 — Sensibilidad y robustez (artefacto: análisis de sensibilidad)

Objetivo: entender qué tan frágil es la decisión ante cambios razonables: umbrales, costos, capacidad, y cambios en la tasa base. Este análisis convierte performance en decisiones.

1) Sensibilidad al umbral / capacidad (K)

Si la operación permite entre 1.000 y 3.000 contactos por semana, evalúa métricas a distintos K.

K (contactos)Precision@KRecall@KChurn esperado capturadoImplicación
10000.350.22alto por contactoMuy eficiente, poca cobertura
20000.280.35balancePunto operativo recomendado
30000.220.45más coberturaMás costo y menor eficiencia

2) Sensibilidad a costos/beneficios (mini business case)

Define variables simples y prueba escenarios.

Supuestos:
- Beneficio por churn evitado (B): 120
- Costo por contacto (C): 2
- Tasa de éxito de intervención (u): 10% de los que iban a churn
- Precision@K (p): 0.28
- Contactos (K): 2000

Churn evitado esperado = K * p * u
Beneficio esperado = (K * p * u) * B
Costo esperado = K * C
ROI = (Beneficio - Costo) / Costo

Luego varía u (5%–20%), B (según LTV), y C (canal) para ver si la decisión cambia.

3) Sensibilidad a drift (cambio de comportamiento)

  • Simula caída de tasa base o cambio en distribución de uso (p. ej., nueva app).
  • Recalcula Precision@K con un set temporal más reciente.
  • Define gatillos: “si Precision@2000 cae > X% por 2 semanas, revisar”.

Etapa 7 — Comunicación para decisión (artefacto: guion de presentación)

Objetivo: llevar a una decisión concreta (qué hacer, con quién, cuándo, cómo medir) en 5–10 minutos. El guion evita presentaciones “técnicas” sin acción.

Guion (10 diapositivas máximas)

  • 1. Decisión: “Proponemos priorizar 2.000 clientes/semana para intervención de retención”.
  • 2. Impacto esperado: rango de churn evitado y ROI bajo escenarios (optimista/base/pesimista).
  • 3. Cómo funciona: ranking de riesgo + 3 drivers principales (lenguaje simple).
  • 4. A quién afecta: segmentos principales y consideraciones de equidad/riesgo.
  • 5. Qué haremos: playbook de intervención (canal, oferta, timing).
  • 6. Qué no haremos (por ahora): límites del enfoque y supuestos.
  • 7. Evidencia: tabla de resultados (baseline vs reglas vs modelo).
  • 8. Riesgos y mitigaciones: drift, calidad de datos, saturación de contacto.
  • 9. Medición: diseño de evaluación (idealmente experimento) y métricas de seguimiento.
  • 10. Próximos pasos: decisión requerida hoy + plan 2–4 semanas.

Tip práctico: lleva una “lista de decisiones” al inicio (qué necesitas que aprueben) y una “lista de preguntas abiertas” al final (qué falta para escalar).

Etapa 8 — Decidir próximos pasos y mantener el ciclo de mejora

Objetivo: elegir el siguiente movimiento correcto según evidencia, riesgo y capacidad. Usa criterios explícitos para no caer en “sigamos modelando” sin necesidad.

Árbol de decisión (criterios prácticos)

  • Iterar (mejorar features/modelo) si: la señal existe pero Precision@K aún no alcanza el umbral; hay variables obvias por incorporar; el error se concentra en segmentos claros.
  • Ampliar datos si: el desempeño está limitado por falta de información (p. ej., no hay eventos de uso, no hay historial de soporte unificado) o por mala calidad (nulos, definiciones inconsistentes).
  • Experimentar (medir impacto causal) si: el ranking funciona pero no sabes si la intervención cambia el resultado; necesitas estimar uplift/impacto incremental antes de escalar presupuesto.
  • Desplegar (operacionalizar) si: se cumplen umbrales de la matriz, el flujo operativo está listo, y el riesgo está controlado con monitoreo.

Cómo mantener el ciclo de mejora (operación mínima)

  • Cadencia: scoring semanal + revisión quincenal de métricas + retrospectiva mensual.
  • Monitoreo: tasa base de churn, Precision@K, cobertura de datos, estabilidad de features (distribuciones), y performance por segmento.
  • Registro de cambios: bitácora de versiones (datos, features, modelo, reglas de negocio, campañas).
  • Aprendizaje de intervención: registrar qué acción se aplicó a cada cliente y su resultado para mejorar targeting y ofertas.
  • Higiene de datos: actualizar el diccionario mínimo cuando cambie una definición o fuente; agregar tests simples (rangos, nulos, unicidad).

Ahora responde el ejercicio sobre el contenido:

¿Cuál es el objetivo principal de construir una matriz de métricas que incluya negocio, modelo y operación en un proyecto de reducción de churn?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

La matriz de métricas traduce “éxito” en indicadores de negocio, desempeño y operación, evitando que una mejora analítica (p. ej., AUC) no se convierta en valor o no pueda ejecutarse por restricciones como capacidad de contactos.

Portada de libro electrónico gratuitaFundamentos de Ciencia de Datos para Principiantes: del problema al insight
100%

Fundamentos de Ciencia de Datos para Principiantes: del problema al insight

Nuevo curso

11 páginas

Descarga la aplicación para obtener una certificación gratuita y escuchar cursos en segundo plano, incluso con la pantalla apagada.