Del análisis descriptivo al modelado: elegir el enfoque según la pregunta
Una vez que los datos están comprendidos y listos para analizar, el siguiente paso es convertirlos en insights accionables. La clave para un principiante es aprender a elegir el método correcto según: (1) la pregunta, (2) el tipo de variable objetivo (si existe) y (3) la estructura de los datos (tiempo, usuarios, transacciones, etc.).
Una guía rápida para decidir:
- ¿Qué está pasando? → análisis descriptivo (agregaciones, distribuciones, cohortes, segmentación).
- ¿Por qué podría estar pasando? → hipótesis, comparación de grupos, análisis de confusores, cuidado con causalidad.
- ¿Qué pasará o qué debería pasar? → enfoques predictivos básicos (regresión/clasificación a nivel conceptual) y evaluación.
- ¿Qué palancas importan más? → importancia de variables (con interpretación cuidadosa).
Variables: tipos y rol en el análisis
En un análisis típico encontrarás:
- Variable objetivo (target): lo que quieres explicar o predecir (p. ej.,
churn,ventas,tiempo_de_entrega). - Variables explicativas (features): factores potencialmente relacionados con el target (p. ej.,
precio,antigüedad,canal). - Variables de segmentación: para comparar subgrupos (p. ej.,
país,plan,cohorte).
Tipos comunes de variables (y por qué importan):
- Numéricas (continuas o discretas): permiten promedios, percentiles, regresión.
- Categóricas (nominales/ordinales): permiten tasas por grupo, tablas de contingencia, clasificación.
- Temporales: habilitan tendencias, estacionalidad, cohortes y análisis “antes/después”.
Análisis descriptivo: convertir datos en señales
Agregaciones que responden preguntas reales
Las agregaciones son el “lenguaje” del análisis descriptivo: resumir para entender patrones. Un error común es agregar sin un propósito; en cambio, define primero el corte: ¿por usuario, por día, por pedido, por sesión?
- Escuche el audio con la pantalla apagada.
- Obtenga un certificado al finalizar.
- ¡Más de 5000 cursos para que explores!
Descargar la aplicación
Ejemplos de preguntas y agregaciones:
- Retención: % de usuarios activos por semana desde su alta.
- Conversión: tasa de compra por canal y dispositivo.
- Operaciones: tiempo medio de entrega por ciudad y franja horaria.
# Pseudocódigo conceptual (no dependiente de librerías específicas) 1) Definir unidad de análisis (p. ej., usuario-semana) 2) Calcular métricas (p. ej., activo=1 si tuvo evento) 3) Agregar por segmento (p. ej., plan, país) 4) Comparar y priorizar diferencias relevantesSegmentación: encontrar grupos con comportamientos distintos
Segmentar es dividir la población en grupos para observar diferencias útiles. Para principiantes, una segmentación práctica suele ser:
- Por negocio: plan, canal, región, categoría de producto.
- Por comportamiento: frecuencia de compra, recencia, gasto (ideas tipo RFM).
- Por etapa: nuevos vs. recurrentes, onboarding completo vs. incompleto.
Regla práctica: una segmentación es útil si (1) los grupos son interpretables, (2) accionables (puedes hacer algo distinto para cada grupo) y (3) estables (no cambian por ruido).
Análisis de cohortes: entender evolución en el tiempo
Una cohorte agrupa entidades por un evento inicial (p. ej., semana de registro o primera compra) y observa su comportamiento a través del tiempo. Es especialmente útil para separar crecimiento por adquisición vs. cambios reales en retención/uso.
Pasos típicos:
- Definir evento de inicio:
fecha_registrooprimera_compra. - Definir ventana temporal: semanas o meses desde el inicio.
- Definir métrica: retención, compras por usuario, ingresos acumulados.
- Construir tabla cohorte (filas=cohortes, columnas=edad de cohorte).
| Cohorte (mes alta) | Mes 0 | Mes 1 | Mes 2 |
|---|---|---|---|
| 2025-10 | 100% | 42% | 35% |
| 2025-11 | 100% | 38% | — |
Interpretación práctica: si las cohortes recientes retienen peor en Mes 1, puede indicar cambios en adquisición, producto o soporte. Antes de concluir, revisa confusores (ver sección de causalidad).
Correlación vs. causalidad: cómo no engañarte con los datos
Correlación: relación observada, no necesariamente causa
Dos variables pueden moverse juntas sin que una cause la otra. Ejemplo: usuarios que reciben más emails pueden comprar más, pero quizá es porque ya eran más activos y por eso entraron en un segmento de marketing.
Usos válidos de correlación:
- Descubrir señales para priorizar investigación.
- Seleccionar variables candidatas para un modelo predictivo.
- Detectar redundancia entre variables (multicolinealidad conceptual).
Confusores: el “tercer factor” que distorsiona
Un confusor es una variable que afecta tanto a la supuesta causa como al efecto, creando una relación engañosa. Ejemplo:
- Observas que “usar la función X” se asocia a menor churn.
- Confusor posible: “usuarios avanzados” usan más la función X y también churnean menos.
Cómo actuar como principiante:
- Listar 3–5 confusores plausibles (antigüedad, plan, país, canal, tamaño de cuenta).
- Comparar dentro de segmentos (p. ej., solo usuarios nuevos, o solo plan Pro).
- Usar controles simples: comparar grupos con características similares.
Formulación de hipótesis: del hallazgo a una prueba razonable
Una hipótesis útil conecta una acción con un resultado medible y define el mecanismo esperado. Estructura recomendada:
- Hipótesis: “Si hacemos A, entonces B cambiará en dirección D, porque M”.
- Métrica principal: qué medirás (p. ej., conversión, retención).
- Segmento: para quién aplica (p. ej., nuevos usuarios).
- Ventana temporal: cuándo esperas ver el efecto.
Ejemplo:
- “Si reducimos el tiempo de entrega en la ciudad Z, entonces la recompra a 30 días aumentará, porque mejora la satisfacción post-compra.”
Enfoques predictivos básicos (conceptual): regresión y clasificación
El modelado predictivo busca estimar un resultado a partir de variables. No es “magia”: es una forma sistemática de aprender patrones de datos históricos para generalizar a casos nuevos.
¿Regresión o clasificación?
- Regresión: el target es numérico (p. ej., ingresos esperados, tiempo de entrega). Salida: un número.
- Clasificación: el target es una clase/categoría (p. ej., churn sí/no, fraude sí/no). Salida: clase o probabilidad.
Regla práctica: si tu decisión depende de un umbral (“si probabilidad > 0.7, intervenir”), estás en un caso típico de clasificación probabilística.
Guía paso a paso: pipeline predictivo mínimo (sin entrar en código específico)
- Definir el target con precisión: por ejemplo,
churn_30d= 1 si el usuario no tuvo actividad en 30 días posteriores a una fecha de referencia. - Elegir la unidad de predicción: usuario, pedido, cuenta, sesión. Esto define cómo agregas features.
- Construir features “disponibles en el momento”: evita usar información futura (fuga de datos). Ejemplo: para predecir churn a partir del día 0, no uses eventos del día 10.
- Separar entrenamiento y evaluación: idealmente respetando el tiempo (entrenar con meses anteriores, evaluar con meses posteriores) si hay dinámica temporal.
- Entrenar un modelo base: empieza simple (p. ej., regresión lineal/logística a nivel conceptual) para tener referencia.
- Evaluar con métricas alineadas al objetivo: clasificación (precisión/recall, AUC, matriz de confusión), regresión (MAE/RMSE). Elige según el costo de errores.
- Revisar errores y sesgos: ¿en qué segmentos falla más? ¿hay drift temporal?
- Traducir a acción: definir umbrales, capacidad operativa y experimento/seguimiento.
Ejemplo conceptual (clasificación de churn):
- Target: churn en 30 días.
- Features: recencia, frecuencia, tickets de soporte, uso de funciones clave, plan.
- Acción: ofrecer onboarding adicional a usuarios con probabilidad alta, priorizando segmentos donde la intervención es viable.
Importancia de variables: útil, pero con cuidado interpretativo
La importancia de variables intenta responder: “¿qué variables contribuyen más a la predicción del modelo?”. Es valiosa para:
- Priorizar palancas potenciales (qué investigar o intervenir).
- Simplificar modelos (quitar variables poco informativas).
- Detectar proxies (variables que representan otra cosa).
Precauciones clave:
- No es causalidad: que una variable sea importante no significa que cambiarla cause el resultado.
- Puede reflejar sesgos del proceso: por ejemplo, “número de contactos con soporte” puede ser importante porque el soporte se activa cuando ya hay problemas.
- Importancia depende del conjunto de variables: si dos variables son similares, el modelo puede repartir o concentrar importancia arbitrariamente.
Buenas prácticas para principiantes:
- Combinar importancia con análisis descriptivo (tasas por cuantiles/segmentos) para validar coherencia.
- Revisar confusores y variables “post-tratamiento” (que ocurren después del fenómeno).
- Documentar interpretaciones como hipótesis, no como verdades.
Estructura recomendada de notebook o reporte analítico
Una estructura clara hace que tu trabajo sea reproducible y fácil de revisar. Puedes usar este esqueleto tanto en un notebook como en un documento.
1) Objetivo
- Pregunta principal (una frase).
- Decisión que habilitará (qué se hará distinto con el insight).
- Métrica(s) de interés y segmento.
2) Datos
- Tablas/fuentes usadas y periodo.
- Unidad de análisis (usuario, pedido, etc.).
- Definiciones operativas (cómo se calcula churn, conversión, etc.).
3) Metodología
- Análisis descriptivo: agregaciones, segmentación, cohortes.
- Hipótesis evaluadas y controles/segmentos usados para confusores.
- Si hay modelo: definición de target, features, partición train/test, métricas.
4) Hallazgos
- 3–5 hallazgos numerados, cada uno con evidencia (tabla/gráfico) y magnitud.
- Qué segmentos destacan y por cuánto.
- Si hay modelo: desempeño y principales variables (con advertencias interpretativas).
5) Limitaciones
- Posibles confusores no observados.
- Calidad o cobertura de datos que afecte resultados.
- Generalización: ¿aplica a todos los países/canales/periodos?
6) Siguientes pasos
- Acciones recomendadas (operativas o de producto) y cómo medir impacto.
- Experimentos o validaciones adicionales (p. ej., prueba controlada, análisis por subgrupos).
- Mejoras de datos/features (qué capturar o instrumentar).