Análisis y modelado en Ciencia de Datos: de la exploración al insight accionable

Capítulo 6

Tiempo estimado de lectura: 8 minutos

+ Ejercicio

Del análisis descriptivo al modelado: elegir el enfoque según la pregunta

Una vez que los datos están comprendidos y listos para analizar, el siguiente paso es convertirlos en insights accionables. La clave para un principiante es aprender a elegir el método correcto según: (1) la pregunta, (2) el tipo de variable objetivo (si existe) y (3) la estructura de los datos (tiempo, usuarios, transacciones, etc.).

Una guía rápida para decidir:

  • ¿Qué está pasando? → análisis descriptivo (agregaciones, distribuciones, cohortes, segmentación).
  • ¿Por qué podría estar pasando? → hipótesis, comparación de grupos, análisis de confusores, cuidado con causalidad.
  • ¿Qué pasará o qué debería pasar? → enfoques predictivos básicos (regresión/clasificación a nivel conceptual) y evaluación.
  • ¿Qué palancas importan más? → importancia de variables (con interpretación cuidadosa).

Variables: tipos y rol en el análisis

En un análisis típico encontrarás:

  • Variable objetivo (target): lo que quieres explicar o predecir (p. ej., churn, ventas, tiempo_de_entrega).
  • Variables explicativas (features): factores potencialmente relacionados con el target (p. ej., precio, antigüedad, canal).
  • Variables de segmentación: para comparar subgrupos (p. ej., país, plan, cohorte).

Tipos comunes de variables (y por qué importan):

  • Numéricas (continuas o discretas): permiten promedios, percentiles, regresión.
  • Categóricas (nominales/ordinales): permiten tasas por grupo, tablas de contingencia, clasificación.
  • Temporales: habilitan tendencias, estacionalidad, cohortes y análisis “antes/después”.

Análisis descriptivo: convertir datos en señales

Agregaciones que responden preguntas reales

Las agregaciones son el “lenguaje” del análisis descriptivo: resumir para entender patrones. Un error común es agregar sin un propósito; en cambio, define primero el corte: ¿por usuario, por día, por pedido, por sesión?

Continúa en nuestra aplicación.
  • Escuche el audio con la pantalla apagada.
  • Obtenga un certificado al finalizar.
  • ¡Más de 5000 cursos para que explores!
O continúa leyendo más abajo...
Download App

Descargar la aplicación

Ejemplos de preguntas y agregaciones:

  • Retención: % de usuarios activos por semana desde su alta.
  • Conversión: tasa de compra por canal y dispositivo.
  • Operaciones: tiempo medio de entrega por ciudad y franja horaria.
# Pseudocódigo conceptual (no dependiente de librerías específicas) 1) Definir unidad de análisis (p. ej., usuario-semana) 2) Calcular métricas (p. ej., activo=1 si tuvo evento) 3) Agregar por segmento (p. ej., plan, país) 4) Comparar y priorizar diferencias relevantes

Segmentación: encontrar grupos con comportamientos distintos

Segmentar es dividir la población en grupos para observar diferencias útiles. Para principiantes, una segmentación práctica suele ser:

  • Por negocio: plan, canal, región, categoría de producto.
  • Por comportamiento: frecuencia de compra, recencia, gasto (ideas tipo RFM).
  • Por etapa: nuevos vs. recurrentes, onboarding completo vs. incompleto.

Regla práctica: una segmentación es útil si (1) los grupos son interpretables, (2) accionables (puedes hacer algo distinto para cada grupo) y (3) estables (no cambian por ruido).

Análisis de cohortes: entender evolución en el tiempo

Una cohorte agrupa entidades por un evento inicial (p. ej., semana de registro o primera compra) y observa su comportamiento a través del tiempo. Es especialmente útil para separar crecimiento por adquisición vs. cambios reales en retención/uso.

Pasos típicos:

  • Definir evento de inicio: fecha_registro o primera_compra.
  • Definir ventana temporal: semanas o meses desde el inicio.
  • Definir métrica: retención, compras por usuario, ingresos acumulados.
  • Construir tabla cohorte (filas=cohortes, columnas=edad de cohorte).
Cohorte (mes alta)Mes 0Mes 1Mes 2
2025-10100%42%35%
2025-11100%38%

Interpretación práctica: si las cohortes recientes retienen peor en Mes 1, puede indicar cambios en adquisición, producto o soporte. Antes de concluir, revisa confusores (ver sección de causalidad).

Correlación vs. causalidad: cómo no engañarte con los datos

Correlación: relación observada, no necesariamente causa

Dos variables pueden moverse juntas sin que una cause la otra. Ejemplo: usuarios que reciben más emails pueden comprar más, pero quizá es porque ya eran más activos y por eso entraron en un segmento de marketing.

Usos válidos de correlación:

  • Descubrir señales para priorizar investigación.
  • Seleccionar variables candidatas para un modelo predictivo.
  • Detectar redundancia entre variables (multicolinealidad conceptual).

Confusores: el “tercer factor” que distorsiona

Un confusor es una variable que afecta tanto a la supuesta causa como al efecto, creando una relación engañosa. Ejemplo:

  • Observas que “usar la función X” se asocia a menor churn.
  • Confusor posible: “usuarios avanzados” usan más la función X y también churnean menos.

Cómo actuar como principiante:

  • Listar 3–5 confusores plausibles (antigüedad, plan, país, canal, tamaño de cuenta).
  • Comparar dentro de segmentos (p. ej., solo usuarios nuevos, o solo plan Pro).
  • Usar controles simples: comparar grupos con características similares.

Formulación de hipótesis: del hallazgo a una prueba razonable

Una hipótesis útil conecta una acción con un resultado medible y define el mecanismo esperado. Estructura recomendada:

  • Hipótesis: “Si hacemos A, entonces B cambiará en dirección D, porque M”.
  • Métrica principal: qué medirás (p. ej., conversión, retención).
  • Segmento: para quién aplica (p. ej., nuevos usuarios).
  • Ventana temporal: cuándo esperas ver el efecto.

Ejemplo:

  • “Si reducimos el tiempo de entrega en la ciudad Z, entonces la recompra a 30 días aumentará, porque mejora la satisfacción post-compra.”

Enfoques predictivos básicos (conceptual): regresión y clasificación

El modelado predictivo busca estimar un resultado a partir de variables. No es “magia”: es una forma sistemática de aprender patrones de datos históricos para generalizar a casos nuevos.

¿Regresión o clasificación?

  • Regresión: el target es numérico (p. ej., ingresos esperados, tiempo de entrega). Salida: un número.
  • Clasificación: el target es una clase/categoría (p. ej., churn sí/no, fraude sí/no). Salida: clase o probabilidad.

Regla práctica: si tu decisión depende de un umbral (“si probabilidad > 0.7, intervenir”), estás en un caso típico de clasificación probabilística.

Guía paso a paso: pipeline predictivo mínimo (sin entrar en código específico)

  1. Definir el target con precisión: por ejemplo, churn_30d = 1 si el usuario no tuvo actividad en 30 días posteriores a una fecha de referencia.
  2. Elegir la unidad de predicción: usuario, pedido, cuenta, sesión. Esto define cómo agregas features.
  3. Construir features “disponibles en el momento”: evita usar información futura (fuga de datos). Ejemplo: para predecir churn a partir del día 0, no uses eventos del día 10.
  4. Separar entrenamiento y evaluación: idealmente respetando el tiempo (entrenar con meses anteriores, evaluar con meses posteriores) si hay dinámica temporal.
  5. Entrenar un modelo base: empieza simple (p. ej., regresión lineal/logística a nivel conceptual) para tener referencia.
  6. Evaluar con métricas alineadas al objetivo: clasificación (precisión/recall, AUC, matriz de confusión), regresión (MAE/RMSE). Elige según el costo de errores.
  7. Revisar errores y sesgos: ¿en qué segmentos falla más? ¿hay drift temporal?
  8. Traducir a acción: definir umbrales, capacidad operativa y experimento/seguimiento.

Ejemplo conceptual (clasificación de churn):

  • Target: churn en 30 días.
  • Features: recencia, frecuencia, tickets de soporte, uso de funciones clave, plan.
  • Acción: ofrecer onboarding adicional a usuarios con probabilidad alta, priorizando segmentos donde la intervención es viable.

Importancia de variables: útil, pero con cuidado interpretativo

La importancia de variables intenta responder: “¿qué variables contribuyen más a la predicción del modelo?”. Es valiosa para:

  • Priorizar palancas potenciales (qué investigar o intervenir).
  • Simplificar modelos (quitar variables poco informativas).
  • Detectar proxies (variables que representan otra cosa).

Precauciones clave:

  • No es causalidad: que una variable sea importante no significa que cambiarla cause el resultado.
  • Puede reflejar sesgos del proceso: por ejemplo, “número de contactos con soporte” puede ser importante porque el soporte se activa cuando ya hay problemas.
  • Importancia depende del conjunto de variables: si dos variables son similares, el modelo puede repartir o concentrar importancia arbitrariamente.

Buenas prácticas para principiantes:

  • Combinar importancia con análisis descriptivo (tasas por cuantiles/segmentos) para validar coherencia.
  • Revisar confusores y variables “post-tratamiento” (que ocurren después del fenómeno).
  • Documentar interpretaciones como hipótesis, no como verdades.

Estructura recomendada de notebook o reporte analítico

Una estructura clara hace que tu trabajo sea reproducible y fácil de revisar. Puedes usar este esqueleto tanto en un notebook como en un documento.

1) Objetivo

  • Pregunta principal (una frase).
  • Decisión que habilitará (qué se hará distinto con el insight).
  • Métrica(s) de interés y segmento.

2) Datos

  • Tablas/fuentes usadas y periodo.
  • Unidad de análisis (usuario, pedido, etc.).
  • Definiciones operativas (cómo se calcula churn, conversión, etc.).

3) Metodología

  • Análisis descriptivo: agregaciones, segmentación, cohortes.
  • Hipótesis evaluadas y controles/segmentos usados para confusores.
  • Si hay modelo: definición de target, features, partición train/test, métricas.

4) Hallazgos

  • 3–5 hallazgos numerados, cada uno con evidencia (tabla/gráfico) y magnitud.
  • Qué segmentos destacan y por cuánto.
  • Si hay modelo: desempeño y principales variables (con advertencias interpretativas).

5) Limitaciones

  • Posibles confusores no observados.
  • Calidad o cobertura de datos que afecte resultados.
  • Generalización: ¿aplica a todos los países/canales/periodos?

6) Siguientes pasos

  • Acciones recomendadas (operativas o de producto) y cómo medir impacto.
  • Experimentos o validaciones adicionales (p. ej., prueba controlada, análisis por subgrupos).
  • Mejoras de datos/features (qué capturar o instrumentar).

Ahora responde el ejercicio sobre el contenido:

Al construir un pipeline predictivo mínimo, ¿cuál es la práctica clave para evitar fuga de datos al crear features?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

Para evitar fuga de datos, las features deben estar disponibles en el momento en que se haría la predicción; usar información futura (eventos posteriores) introduce señales que no existirían en producción y sesga la evaluación.

Siguiente capítulo

Validación en Ciencia de Datos: confianza, generalización y riesgos

Arrow Right Icon
Portada de libro electrónico gratuitaFundamentos de Ciencia de Datos para Principiantes: del problema al insight
55%

Fundamentos de Ciencia de Datos para Principiantes: del problema al insight

Nuevo curso

11 páginas

Descarga la aplicación para obtener una certificación gratuita y escuchar cursos en segundo plano, incluso con la pantalla apagada.