Todos los cursos > Informática ( TI ) > Inteligencia artificial y Ciencia de los datos ::

Ciencia de Datos para Principiantes: mentalidad, alcance y resultados esperables

Capítulo 1

Tiempo estimado de lectura: 8 minutos

Definición operativa: qué es “hacer ciencia de datos”

En términos operativos, ciencia de datos es el proceso de resolver un problema usando datos para producir una decisión mejor o aprendizaje accionable (algo que cambia lo que haces: priorizas, ajustas, automatizas, experimentas o dejas de hacer).

La clave no es la herramienta, sino el ciclo completo: partir de una pregunta útil, convertirla en una medición, analizar con rigor, validar que el hallazgo se sostiene y comunicarlo de forma que se pueda ejecutar.

Ejemplo rápido (en lenguaje de negocio)

Problema: “Las renovaciones bajaron.”
Pregunta accionable: “¿Qué segmentos tienen mayor riesgo de no renovar y qué palancas lo explican?”
Resultado esperable: una lista priorizada de clientes con riesgo, variables explicativas y una recomendación de intervención (p. ej., campaña, cambio de onboarding, ajuste de precio).

Mentalidad: de “tener datos” a “tomar decisiones con evidencia”

La mentalidad de ciencia de datos para principiantes se apoya en cuatro hábitos:

Orientación a decisión: cada análisis debe conectar con una acción o una elección concreta (qué hacer, cuándo, con quién, cuánto invertir).
Especificidad: convertir frases vagas en definiciones medibles (qué significa “mejor”, “rápido”, “alto riesgo”).
Escepticismo sano: distinguir señal de ruido, y correlación de causalidad.
Iteración: empezar simple, aprender, refinar; no buscar “el modelo perfecto” desde el día 1.

Alcance: qué tipos de preguntas aborda

Una forma práctica de delimitar el alcance es clasificar preguntas en cuatro familias. Cada una requiere datos, métodos y entregables distintos.

1) Descriptivas (¿qué pasó?)

Describen el estado del sistema y sus cambios en el tiempo.

Continúa en nuestra aplicación.

Escuche el audio con la pantalla apagada.
Obtenga un certificado al finalizar.
¡Más de 5000 cursos para que explores!

O continúa leyendo más abajo...

Descargar la aplicación

Ejemplos: “¿Cuántas ventas hubo por canal?”, “¿Cómo evolucionó la tasa de conversión semanal?”
Salida típica: tablas de métricas, series temporales, segmentaciones.

2) Diagnósticas (¿por qué pasó?)

Buscan explicaciones plausibles y factores asociados.

Ejemplos: “¿Qué cambió en los usuarios que abandonan?”, “¿Qué variables se asocian a devoluciones?”
Salida típica: análisis de cohortes, descomposición por segmentos, pruebas de hipótesis, análisis de contribución.

3) Predictivas (¿qué pasará?)

Estiman resultados futuros o desconocidos a partir de patrones.

Ejemplos: “¿Quién tiene riesgo de churn?”, “¿Cuánto venderemos el próximo mes?”
Salida típica: modelos de predicción, scores, intervalos de confianza, evaluación de desempeño.

4) Prescriptivas (¿qué deberíamos hacer?)

Recomiendan acciones bajo restricciones (presupuesto, capacidad, reglas) y objetivos (maximizar margen, minimizar riesgo).

Ejemplos: “¿A qué clientes llamar primero con un equipo limitado?”, “¿Qué precio maximiza ingresos sin disparar cancelaciones?”
Salida típica: reglas de decisión, optimización, simulaciones, políticas (policy) y análisis costo-beneficio.

Qué NO es ciencia de datos (y por qué importa)

Delimitar lo que no es evita expectativas irreales y proyectos que no llegan a impacto.

No es solo dashboards: un tablero puede describir, pero no necesariamente explica, predice o prescribe. Puede ser parte del trabajo, no el trabajo completo.
No es solo IA: muchos problemas se resuelven con estadística básica, segmentación o experimentos. “Usar IA” no es un objetivo; es una opción técnica.
No es solo programación: programar habilita el análisis, pero el valor está en formular bien la pregunta, medir, validar y decidir.
No es magia ni certeza absoluta: trabaja con incertidumbre; por eso se reportan márgenes de error, supuestos y límites.

Entregables típicos (lo que realmente se entrega)

En proyectos reales, los entregables suelen combinar piezas técnicas y piezas de decisión. Los más comunes:

Insights accionables: hallazgos con implicación clara (qué cambia si actuamos / no actuamos).
Reportes analíticos: documento con pregunta, datos, método, resultados, limitaciones y recomendación.
Tablas de métricas: definiciones de KPIs, cortes por segmento, series temporales, funnels.
Modelos: desde una regresión simple hasta modelos más complejos; incluyen features, entrenamiento, evaluación y umbrales de decisión.
Experimentos: diseño A/B, criterios de éxito, tamaño de muestra, resultados y decisión (lanzar, iterar, descartar).
Artefactos operativos: scorecards, reglas de negocio, pipelines de datos, notebooks reproducibles, dashboards de monitoreo (cuando aplica).

Ejemplo de “paquete de entrega” mínimo (MVP)

Componente	Qué incluye	Para quién
Tabla de métricas	Definición de churn, tasa por cohortes y segmento	Negocio/Producto
Insight	Segmento A explica 60% del aumento por cambio en onboarding	Stakeholders
Modelo simple	Score de riesgo con 5 variables interpretables	Operación/CRM
Recomendación	Intervención priorizada + estimación de impacto	Dirección

Criterios de éxito: cómo saber si “funcionó”

El éxito no se mide solo por “tener un modelo” o “hacer un análisis”, sino por el efecto y la confiabilidad.

1) Éxito de negocio (impacto)

Mejora de KPI: ingresos, margen, retención, tiempo de resolución, fraude evitado.
Decisión habilitada: se eligió una acción con evidencia (p. ej., priorización, cambio de proceso).
ROI: beneficio estimado vs costo de implementación y mantenimiento.

2) Éxito analítico (calidad y validez)

Definiciones consistentes: métricas y población bien definidas (sin ambigüedad).
Reproducibilidad: mismos datos + mismo código = mismos resultados.
Validación: separación entrenamiento/prueba, backtesting, o validación experimental cuando corresponde.
Robustez: resultados estables ante cambios razonables (periodos, segmentos, supuestos).

3) Éxito operativo (adopción)

Usabilidad: el entregable se entiende y se usa (no queda “en un cajón”).
Integración: el score o métrica llega al punto de decisión (CRM, proceso, tablero de seguimiento).
Monitoreo: se detecta degradación (drift), cambios de datos y performance.

Mapa del flujo de trabajo del ebook: pregunta → datos → análisis → validación → comunicación

Este será el flujo de trabajo recurrente. En cada etapa hay entradas, salidas y decisiones clave.

1) Pregunta

Objetivo: transformar un problema en una pregunta medible y accionable.

Entradas: contexto del negocio, restricciones (tiempo, presupuesto), definición de éxito.
Decisiones clave: ¿qué decisión se quiere tomar?, ¿qué métrica representa “mejor”?, ¿qué horizonte temporal importa?, ¿qué segmentos importan?
Salidas: enunciado de pregunta, hipótesis iniciales, métricas y población objetivo definidas.

2) Datos

Objetivo: conseguir datos adecuados y convertirlos en una base analizable.

Entradas: fuentes (transacciones, eventos, CRM, encuestas), diccionarios, reglas de negocio.
Decisiones clave: ¿qué fuente es “de verdad” para cada métrica?, ¿cómo se unen tablas?, ¿qué ventana temporal usar?, ¿cómo tratar faltantes y outliers?
Salidas: dataset limpio (o pipeline), definiciones documentadas, trazabilidad de transformaciones.

3) Análisis

Objetivo: responder la pregunta con métodos apropiados (descriptivo, diagnóstico, predictivo o prescriptivo).

Entradas: dataset, hipótesis, métricas, criterios de éxito.
Decisiones clave: ¿qué nivel de complejidad es suficiente?, ¿qué variables usar?, ¿qué baseline comparar?, ¿qué trade-offs aceptar (precisión vs interpretabilidad)?
Salidas: resultados (tablas, gráficos, estimaciones), modelo o reglas, hallazgos priorizados.

4) Validación

Objetivo: comprobar que el resultado es confiable y generaliza.

Entradas: resultados del análisis, particiones de datos, supuestos.
Decisiones clave: ¿qué métrica de evaluación usar?, ¿hay leakage?, ¿hay sesgos por selección?, ¿se necesita experimento?, ¿qué umbral de decisión conviene?
Salidas: métricas de performance, sensibilidad a supuestos, límites y riesgos, recomendación validada o iteración requerida.

5) Comunicación

Objetivo: convertir el análisis en una decisión ejecutable y un plan de acción.

Entradas: hallazgos validados, contexto del stakeholder, restricciones operativas.
Decisiones clave: ¿qué historia mínima explica el “por qué”?, ¿qué acción concreta se recomienda?, ¿cómo se medirá el impacto?, ¿quién es responsable y cuándo?
Salidas: reporte o presentación, tabla de decisiones (qué hacer/qué no hacer), plan de medición y monitoreo.

Guía práctica paso a paso: convertir un problema en un proyecto de ciencia de datos

Usa esta plantilla cada vez que inicies un caso, incluso si el resultado final es “solo” un análisis descriptivo.

Paso 1: redacta la pregunta en formato decisión

Plantilla: ¿Qué acción tomaremos si el resultado es A vs B?
Ejemplo: ¿A qué 20% de clientes contactamos primero para reducir churn este mes?

Paso 2: define métrica, población y horizonte

Métrica: churn_30d (definición exacta)
Población: clientes activos al inicio del mes
Horizonte: próximos 30 días

Paso 3: lista datos mínimos necesarios (y sus llaves)

Eventos de uso (llave: user_id, tiempo: event_time)
Facturación (llave: account_id)
Soporte (llave: ticket_id, vínculo a account_id)

Paso 4: define el entregable y el “formato de consumo”

Entregable: tabla con account_id, risk_score, top 3 razones, recomendación
Consumo: export a CRM o lista semanal para el equipo

Paso 5: elige el tipo de análisis (y un baseline)

Tipo: predictivo + prescriptivo (priorización)
Baseline: regla simple (p. ej., “contactar a quien tuvo 0 uso en 7 días”)

Paso 6: valida antes de escalar

Validación offline: desempeño en datos históricos (p. ej., AUC/precision@k según el caso)
Validación online: piloto o A/B si hay intervención

Paso 7: comunica con una tabla de decisiones

Hallazgo	Decisión	Acción	Cómo medimos
Riesgo alto concentrado en cuentas con caída de uso + tickets recientes	Priorizar contacto proactivo	Llamar top 20% por score	Churn 30d vs control

Ahora responde el ejercicio sobre el contenido:

¿Cuál enunciado describe mejor “hacer ciencia de datos” en términos operativos?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

La ciencia de datos se entiende como un proceso completo orientado a decisiones: partir de una pregunta accionable, medir, analizar con rigor, validar que el hallazgo se sostiene y comunicarlo para ejecutar una acción.