Todos los cursos > Informática ( TI ) > Inteligencia artificial y Ciencia de los datos ::

Análisis y modelado en Ciencia de Datos: de la exploración al insight accionable

Capítulo 6

Tiempo estimado de lectura: 8 minutos

Del análisis descriptivo al modelado: elegir el enfoque según la pregunta

Una vez que los datos están comprendidos y listos para analizar, el siguiente paso es convertirlos en insights accionables. La clave para un principiante es aprender a elegir el método correcto según: (1) la pregunta, (2) el tipo de variable objetivo (si existe) y (3) la estructura de los datos (tiempo, usuarios, transacciones, etc.).

Una guía rápida para decidir:

¿Qué está pasando? → análisis descriptivo (agregaciones, distribuciones, cohortes, segmentación).
¿Por qué podría estar pasando? → hipótesis, comparación de grupos, análisis de confusores, cuidado con causalidad.
¿Qué pasará o qué debería pasar? → enfoques predictivos básicos (regresión/clasificación a nivel conceptual) y evaluación.
¿Qué palancas importan más? → importancia de variables (con interpretación cuidadosa).

Variables: tipos y rol en el análisis

En un análisis típico encontrarás:

Variable objetivo (target): lo que quieres explicar o predecir (p. ej., churn, ventas, tiempo_de_entrega).
Variables explicativas (features): factores potencialmente relacionados con el target (p. ej., precio, antigüedad, canal).
Variables de segmentación: para comparar subgrupos (p. ej., país, plan, cohorte).

Tipos comunes de variables (y por qué importan):

Numéricas (continuas o discretas): permiten promedios, percentiles, regresión.
Categóricas (nominales/ordinales): permiten tasas por grupo, tablas de contingencia, clasificación.
Temporales: habilitan tendencias, estacionalidad, cohortes y análisis “antes/después”.

Análisis descriptivo: convertir datos en señales

Agregaciones que responden preguntas reales

Las agregaciones son el “lenguaje” del análisis descriptivo: resumir para entender patrones. Un error común es agregar sin un propósito; en cambio, define primero el corte: ¿por usuario, por día, por pedido, por sesión?

Continúa en nuestra aplicación.

Escuche el audio con la pantalla apagada.
Obtenga un certificado al finalizar.
¡Más de 5000 cursos para que explores!

O continúa leyendo más abajo...

Descargar la aplicación

Ejemplos de preguntas y agregaciones:

Retención: % de usuarios activos por semana desde su alta.
Conversión: tasa de compra por canal y dispositivo.
Operaciones: tiempo medio de entrega por ciudad y franja horaria.

# Pseudocódigo conceptual (no dependiente de librerías específicas) 1) Definir unidad de análisis (p. ej., usuario-semana) 2) Calcular métricas (p. ej., activo=1 si tuvo evento) 3) Agregar por segmento (p. ej., plan, país) 4) Comparar y priorizar diferencias relevantes

Segmentación: encontrar grupos con comportamientos distintos

Segmentar es dividir la población en grupos para observar diferencias útiles. Para principiantes, una segmentación práctica suele ser:

Por negocio: plan, canal, región, categoría de producto.
Por comportamiento: frecuencia de compra, recencia, gasto (ideas tipo RFM).
Por etapa: nuevos vs. recurrentes, onboarding completo vs. incompleto.

Regla práctica: una segmentación es útil si (1) los grupos son interpretables, (2) accionables (puedes hacer algo distinto para cada grupo) y (3) estables (no cambian por ruido).

Análisis de cohortes: entender evolución en el tiempo

Una cohorte agrupa entidades por un evento inicial (p. ej., semana de registro o primera compra) y observa su comportamiento a través del tiempo. Es especialmente útil para separar crecimiento por adquisición vs. cambios reales en retención/uso.

Pasos típicos:

Definir evento de inicio: fecha_registro o primera_compra.
Definir ventana temporal: semanas o meses desde el inicio.
Definir métrica: retención, compras por usuario, ingresos acumulados.
Construir tabla cohorte (filas=cohortes, columnas=edad de cohorte).

Cohorte (mes alta)	Mes 0	Mes 1	Mes 2
2025-10	100%	42%	35%
2025-11	100%	38%	—

Interpretación práctica: si las cohortes recientes retienen peor en Mes 1, puede indicar cambios en adquisición, producto o soporte. Antes de concluir, revisa confusores (ver sección de causalidad).

Correlación vs. causalidad: cómo no engañarte con los datos

Correlación: relación observada, no necesariamente causa

Dos variables pueden moverse juntas sin que una cause la otra. Ejemplo: usuarios que reciben más emails pueden comprar más, pero quizá es porque ya eran más activos y por eso entraron en un segmento de marketing.

Usos válidos de correlación:

Descubrir señales para priorizar investigación.
Seleccionar variables candidatas para un modelo predictivo.
Detectar redundancia entre variables (multicolinealidad conceptual).

Confusores: el “tercer factor” que distorsiona

Un confusor es una variable que afecta tanto a la supuesta causa como al efecto, creando una relación engañosa. Ejemplo:

Observas que “usar la función X” se asocia a menor churn.
Confusor posible: “usuarios avanzados” usan más la función X y también churnean menos.

Cómo actuar como principiante:

Listar 3–5 confusores plausibles (antigüedad, plan, país, canal, tamaño de cuenta).
Comparar dentro de segmentos (p. ej., solo usuarios nuevos, o solo plan Pro).
Usar controles simples: comparar grupos con características similares.

Formulación de hipótesis: del hallazgo a una prueba razonable

Una hipótesis útil conecta una acción con un resultado medible y define el mecanismo esperado. Estructura recomendada:

Hipótesis: “Si hacemos A, entonces B cambiará en dirección D, porque M”.
Métrica principal: qué medirás (p. ej., conversión, retención).
Segmento: para quién aplica (p. ej., nuevos usuarios).
Ventana temporal: cuándo esperas ver el efecto.

Ejemplo:

“Si reducimos el tiempo de entrega en la ciudad Z, entonces la recompra a 30 días aumentará, porque mejora la satisfacción post-compra.”

Enfoques predictivos básicos (conceptual): regresión y clasificación

El modelado predictivo busca estimar un resultado a partir de variables. No es “magia”: es una forma sistemática de aprender patrones de datos históricos para generalizar a casos nuevos.

¿Regresión o clasificación?

Regresión: el target es numérico (p. ej., ingresos esperados, tiempo de entrega). Salida: un número.
Clasificación: el target es una clase/categoría (p. ej., churn sí/no, fraude sí/no). Salida: clase o probabilidad.

Regla práctica: si tu decisión depende de un umbral (“si probabilidad > 0.7, intervenir”), estás en un caso típico de clasificación probabilística.

Guía paso a paso: pipeline predictivo mínimo (sin entrar en código específico)

Definir el target con precisión: por ejemplo, churn_30d = 1 si el usuario no tuvo actividad en 30 días posteriores a una fecha de referencia.
Elegir la unidad de predicción: usuario, pedido, cuenta, sesión. Esto define cómo agregas features.
Construir features “disponibles en el momento”: evita usar información futura (fuga de datos). Ejemplo: para predecir churn a partir del día 0, no uses eventos del día 10.
Separar entrenamiento y evaluación: idealmente respetando el tiempo (entrenar con meses anteriores, evaluar con meses posteriores) si hay dinámica temporal.
Entrenar un modelo base: empieza simple (p. ej., regresión lineal/logística a nivel conceptual) para tener referencia.
Evaluar con métricas alineadas al objetivo: clasificación (precisión/recall, AUC, matriz de confusión), regresión (MAE/RMSE). Elige según el costo de errores.
Revisar errores y sesgos: ¿en qué segmentos falla más? ¿hay drift temporal?
Traducir a acción: definir umbrales, capacidad operativa y experimento/seguimiento.

Ejemplo conceptual (clasificación de churn):

Target: churn en 30 días.
Features: recencia, frecuencia, tickets de soporte, uso de funciones clave, plan.
Acción: ofrecer onboarding adicional a usuarios con probabilidad alta, priorizando segmentos donde la intervención es viable.

Importancia de variables: útil, pero con cuidado interpretativo

La importancia de variables intenta responder: “¿qué variables contribuyen más a la predicción del modelo?”. Es valiosa para:

Priorizar palancas potenciales (qué investigar o intervenir).
Simplificar modelos (quitar variables poco informativas).
Detectar proxies (variables que representan otra cosa).

Precauciones clave:

No es causalidad: que una variable sea importante no significa que cambiarla cause el resultado.
Puede reflejar sesgos del proceso: por ejemplo, “número de contactos con soporte” puede ser importante porque el soporte se activa cuando ya hay problemas.
Importancia depende del conjunto de variables: si dos variables son similares, el modelo puede repartir o concentrar importancia arbitrariamente.

Buenas prácticas para principiantes:

Combinar importancia con análisis descriptivo (tasas por cuantiles/segmentos) para validar coherencia.
Revisar confusores y variables “post-tratamiento” (que ocurren después del fenómeno).
Documentar interpretaciones como hipótesis, no como verdades.

Estructura recomendada de notebook o reporte analítico

Una estructura clara hace que tu trabajo sea reproducible y fácil de revisar. Puedes usar este esqueleto tanto en un notebook como en un documento.

1) Objetivo

Pregunta principal (una frase).
Decisión que habilitará (qué se hará distinto con el insight).
Métrica(s) de interés y segmento.

2) Datos

Tablas/fuentes usadas y periodo.
Unidad de análisis (usuario, pedido, etc.).
Definiciones operativas (cómo se calcula churn, conversión, etc.).

3) Metodología

Análisis descriptivo: agregaciones, segmentación, cohortes.
Hipótesis evaluadas y controles/segmentos usados para confusores.
Si hay modelo: definición de target, features, partición train/test, métricas.

4) Hallazgos

3–5 hallazgos numerados, cada uno con evidencia (tabla/gráfico) y magnitud.
Qué segmentos destacan y por cuánto.
Si hay modelo: desempeño y principales variables (con advertencias interpretativas).

5) Limitaciones

Posibles confusores no observados.
Calidad o cobertura de datos que afecte resultados.
Generalización: ¿aplica a todos los países/canales/periodos?

6) Siguientes pasos

Acciones recomendadas (operativas o de producto) y cómo medir impacto.
Experimentos o validaciones adicionales (p. ej., prueba controlada, análisis por subgrupos).
Mejoras de datos/features (qué capturar o instrumentar).

Ahora responde el ejercicio sobre el contenido:

Al construir un pipeline predictivo mínimo, ¿cuál es la práctica clave para evitar fuga de datos al crear features?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

Para evitar fuga de datos, las features deben estar disponibles en el momento en que se haría la predicción; usar información futura (eventos posteriores) introduce señales que no existirían en producción y sesga la evaluación.