De la necesidad a la pregunta medible
En Ciencia de Datos, el valor no aparece cuando “analizamos datos”, sino cuando una necesidad real se traduce en una pregunta medible que habilita una decisión. Una formulación correcta reduce ambigüedad, evita análisis interminables y conecta métricas con acciones concretas.
Necesidad vs. problema vs. hipótesis vs. pregunta analítica
- Necesidad: lo que duele o se desea mejorar. Ej.: “Las entregas llegan tarde y se quejan los clientes”.
- Problema: formulación operativa del reto, con foco en impacto. Ej.: “Reducir retrasos de entrega para disminuir reclamos y costos”.
- Hipótesis: explicación tentativa que se puede contrastar. Ej.: “Los retrasos se concentran en ciertas zonas y franjas horarias”.
- Pregunta analítica: pregunta específica, medible y acotada que guía el análisis. Ej.: “¿Cuál es la tasa de entregas tardías por zona y franja horaria en las últimas 8 semanas, y qué variables la predicen mejor?”
Un error común es saltar de la necesidad a una solución (“hagamos un modelo”) sin pasar por una pregunta medible. Otro error es confundir hipótesis con pregunta: la hipótesis propone una causa; la pregunta define qué medir y cómo decidir.
Técnicas para aclarar el contexto (antes de escribir la pregunta)
Usa estas dimensiones como checklist. Si alguna queda vaga, la pregunta será débil.
- Objetivo: ¿qué se quiere lograr y por qué importa? (impacto en ingresos, costos, riesgo, experiencia).
- Usuarios/decisores: ¿quién usará el resultado? ¿qué nivel de detalle necesita?
- Restricciones: presupuesto, tiempo, privacidad, regulaciones, capacidad operativa, dependencia de sistemas.
- Horizonte temporal: ¿para cuándo se necesita? ¿se mide semanal, mensual, trimestral? ¿se decide en tiempo real o en batch?
- Acciones posibles: ¿qué palancas existen? (A/B/C). Si no hay acción, el análisis no se convierte en decisión.
- Definición de éxito: ¿qué métrica cambia y cuánto? ¿qué trade-offs se aceptan?
Plantillas prácticas para formular preguntas medibles
Estas plantillas ayudan a pasar de “queremos mejorar” a “podemos medir y actuar”.
Plantilla 1: Objetivo–Motivo–Métrica–Acción
“Queremos lograr X porque Y; mediremos Z; actuaremos con A/B/C.”
- Escuche el audio con la pantalla apagada.
- Obtenga un certificado al finalizar.
- ¡Más de 5000 cursos para que explores!
Descargar la aplicación
- X: resultado deseado (p. ej., “reducir churn”).
- Y: razón/impacto (p. ej., “porque el costo de adquisición subió”).
- Z: métrica observable (p. ej., “tasa de cancelación a 30 días”).
- A/B/C: acciones concretas (p. ej., “oferta de retención”, “mejoras de onboarding”, “cambios de pricing”).
Plantilla 2: Pregunta analítica en formato PICO (adaptado)
- Población: ¿sobre quién? (clientes nuevos, pedidos express, tickets de soporte).
- Intervención/variable: ¿qué factor o palanca? (tiempo de respuesta, descuento, canal).
- Comparación: ¿contra qué? (antes vs después, grupo control, regiones).
- Outcome: ¿qué resultado? (conversión, retraso, reclamos).
Ejemplo: “En clientes nuevos, ¿un onboarding guiado comparado con el actual reduce la cancelación en 30 días?”
Plantilla 3: Métrica–Segmento–Periodo
“¿Cómo varía [métrica] por [segmento] durante [periodo] y qué factores están asociados?”
Ejemplo: “¿Cómo varía la tasa de entregas tardías por zona y transportista durante las últimas 12 semanas y qué factores (clima, distancia, carga) se asocian?”
Guía paso a paso: traducir una necesidad en una pregunta de datos
Paso 1: Escribe la necesidad en una frase simple
Ejemplo: “Queremos mejorar la satisfacción del cliente”.
Paso 2: Identifica el decisor y la decisión
¿Quién decide y qué puede cambiar? Ej.: “Operaciones decide dotación y horarios de soporte; Producto decide cambios en el flujo”.
Paso 3: Define el resultado (métrica) y su definición operativa
Evita métricas vagas. “Satisfacción” debe convertirse en algo medible: NPS, CSAT, tasa de reclamos, tiempo de resolución, etc. Define exactamente cómo se calcula.
CSAT = (# respuestas 4 o 5) / (# respuestas totales) en encuestas post-interacciónPaso 4: Especifica población y unidad de análisis
La unidad de análisis es el “registro” sobre el que medirás y modelarás. Elegirla bien evita confusiones y dobles conteos.
- Cliente: churn, LTV, segmentación.
- Transacción/pedido: fraude, retrasos, devoluciones.
- Día/semana: forecasting, capacidad, estacionalidad.
- Ticket de soporte: tiempos, calidad, motivos.
Ejemplo: si mides “tiempo de resolución”, ¿es por ticket o por cliente? Si un cliente abre 5 tickets, el resultado cambia según la unidad.
Paso 5: Acota el horizonte temporal y la ventana de medición
Define “cuándo” para evitar preguntas infinitas: “últimas 8 semanas”, “Q4”, “cohortes de alta en enero”. Define también la ventana del outcome: churn a 30 días, conversión a 7 días, etc.
Paso 6: Lista restricciones y datos disponibles (y lo que falta)
Antes de prometer, valida si existe la información mínima. Preguntas útiles:
- ¿La métrica existe en alguna tabla o sistema?
- ¿Hay identificadores para unir fuentes (id_cliente, id_pedido)?
- ¿La calidad es suficiente (faltantes, duplicados, cambios de definición)?
- ¿Hay sesgos de medición (solo encuestan a algunos, logs incompletos)?
Si falta un dato clave, reformula la pregunta o propone instrumentación (p. ej., agregar un evento en el producto, capturar motivo de cancelación).
Paso 7: Conecta con acciones posibles y criterios de decisión
Una buena pregunta incluye el “para qué” operativo: qué harás si el resultado da A vs B. Ej.: “Si el retraso se concentra en zona X, reasignamos rutas; si se concentra por transportista, renegociamos SLA”.
Paso 8: Redacta la pregunta final y valida con stakeholders
Prueba de calidad: ¿dos personas distintas la interpretarían igual? ¿se puede responder con datos en el tiempo disponible? ¿la respuesta cambia una decisión?
Cómo descomponer un problema grande en subpreguntas
Cuando el problema es amplio (“mejorar rentabilidad”, “reducir churn”), descomponerlo evita análisis difusos. Un método práctico es separar en: medición (qué pasa), diagnóstico (por qué), intervención (qué hacer) y seguimiento (cómo sabremos si funcionó).
Ejemplo de descomposición: “Reducir churn”
- Medición: “¿Cuál es la tasa de churn a 30/60/90 días por cohorte de alta?”
- Segmentación: “¿En qué segmentos (plan, canal, región) es mayor?”
- Diagnóstico: “¿Qué comportamientos tempranos (uso, tickets, pagos fallidos) predicen churn?”
- Palancas: “¿Qué acciones disponibles (onboarding, soporte proactivo, ofertas) son viables por segmento?”
- Evaluación: “¿Cómo mediremos el efecto (A/B test, antes/después con control)?”
Tabla rápida: problema grande → subpreguntas
| Problema | Subpregunta de medición | Subpregunta de diagnóstico | Subpregunta de acción |
|---|---|---|---|
| Entregas tardías | ¿Tasa de tardanza por zona/transportista? | ¿Influyen distancia, hora, clima, carga? | ¿Qué cambio reduce tardanza sin subir costo? |
| Baja conversión | ¿En qué paso del funnel cae más? | ¿Qué perfiles abandonan y por qué? | ¿Qué cambio en UX mejora conversión? |
| Costos de soporte altos | ¿Costo por ticket y por motivo? | ¿Qué motivos crecen y en qué canal? | ¿Qué automatizar o prevenir en producto? |
Evitar preguntas imposibles (o trampas frecuentes)
- “¿Por qué…” sin datos causales: “¿Por qué los clientes se van?” suele requerir experimentos o datos de motivos. Reformula a “¿Qué factores observables se asocian con churn?” y, si aplica, diseña un test.
- Sin unidad de análisis: “¿Cuánto tardamos en responder?” ¿por ticket, por cliente, por agente, por día?
- Sin ventana temporal: “¿Ha empeorado?” ¿desde cuándo? ¿comparado con qué periodo?
- Métrica no definida: “Mejorar calidad” ¿defectos por millón, devoluciones, reclamos, auditorías?
- Acción inexistente: “Predecir X” sin plan de intervención. Si no hay palanca, el valor es limitado.
- Datos no disponibles: pedir “intención” o “satisfacción” sin medición. Alternativas: proxy (recompras, quejas) o instrumentación.
Ejemplos completos: preguntas bien y mal formuladas
Ejemplo 1: Operaciones (entregas)
Necesidad: “Hay muchas entregas tarde”.
Mal formulada: “¿Podemos usar IA para mejorar las entregas?”
- Problema: no define métrica, periodo, unidad, ni acción concreta.
Bien formulada (con plantilla): “Queremos reducir la tasa de entregas tardías porque aumentaron reclamos y reembolsos; mediremos % de pedidos entregados después del SLA por zona y transportista en las últimas 10 semanas; actuaremos con (A) reasignación de rutas, (B) ajuste de capacidad por franja o (C) cambio de transportista según los principales drivers.”
Pregunta analítica resultante: “¿Qué zonas, franjas horarias y transportistas explican la mayor proporción de entregas fuera de SLA en las últimas 10 semanas, y qué variables operativas (distancia, carga, hora de despacho) están más asociadas?”
Ejemplo 2: Producto (conversión)
Necesidad: “La conversión bajó”.
Mal formulada: “¿Qué está pasando con la conversión?”
- Problema: demasiado amplia; no define dónde (funnel), ni segmento, ni periodo, ni comparación.
Bien formulada: “En usuarios nuevos, ¿en qué paso del funnel de registro cayó la conversión durante las últimas 4 semanas vs. las 4 semanas anteriores, segmentado por dispositivo y canal, y cuál es el impacto potencial de simplificar el paso con mayor abandono?”
Ejemplo 3: Comercial (churn y retención)
Necesidad: “Se están yendo clientes importantes”.
Mal formulada: “¿Quiénes se van a ir y cómo lo evitamos?”
- Problema: mezcla predicción con intervención sin definir qué significa “importante”, ni el horizonte, ni qué acciones son posibles.
Bien formulada: “Queremos reducir churn a 60 días en clientes del plan Pro porque impacta ingresos recurrentes; mediremos cancelación dentro de 60 días desde la renovación; actuaremos con (A) contacto proactivo del equipo de cuentas, (B) capacitación o (C) ajuste de plan. Pregunta: ¿qué señales en las 2 semanas posteriores a la renovación (uso, tickets, pagos fallidos) se asocian más con churn a 60 días y permiten priorizar a quién contactar?”
Ejemplo 4: Soporte (tiempos)
Necesidad: “Soporte está lento”.
Mal formulada: “¿Por qué soporte es lento?”
- Problema: “por qué” sugiere causalidad; además falta unidad (ticket/agente) y definición de “lento”.
Bien formulada: “¿Cuál es el tiempo de primera respuesta y el tiempo de resolución por canal y motivo en los últimos 90 días, y qué proporción del volumen proviene de los 3 motivos principales para priorizar automatización o cambios en producto?”