Todos los cursos > Informática ( TI ) > Inteligencia artificial y Ciencia de los datos ::

Roles y herramientas típicas en Ciencia de Datos: colaboración y flujo de trabajo

Capítulo 9

Tiempo estimado de lectura: 11 minutos

Por qué importan los roles y las herramientas

En proyectos de Ciencia de Datos, el reto no suele ser “hacer un modelo”, sino coordinar a varias personas para transformar una pregunta de negocio en un resultado usable y mantenible. Para evitar fricciones, conviene definir: (1) responsabilidades y límites entre roles, (2) entregables esperados, (3) puntos de handoff (traspaso) con formatos y criterios claros, y (4) un conjunto de herramientas por categoría que permita colaborar sin depender de una plataforma específica.

Roles típicos: responsabilidades, límites y señales de alerta

Analista de datos (Data Analyst)

Responsabilidades: análisis descriptivo/diagnóstico, segmentaciones, reporting, definición de KPIs operativos, exploración para responder preguntas concretas.
Límites típicos: no suele ser responsable de construir pipelines de datos productivos ni de desplegar modelos; puede prototipar pero no “operar” sistemas.
Señales de alerta: se le pide “arreglar” datos en producción sin acceso/soporte; se le pide desplegar un servicio o mantener un pipeline sin ingeniería.

Científico/a de datos (Data Scientist)

Responsabilidades: experimentación analítica, modelado estadístico/ML, evaluación y comparación de enfoques, diseño de features, análisis de sensibilidad, estimación de impacto.
Límites típicos: no debería ser el dueño único de la infraestructura; su foco es convertir datos en señales y decisiones, no operar sistemas 24/7.
Señales de alerta: se le pide “subir a producción” sin apoyo de ML/infra; se le exige precisión sin definir criterios de aceptación o sin datos adecuados.

Ingeniero/a de datos (Data Engineer)

Responsabilidades: ingesta, modelado de datos (tablas, particiones), calidad y observabilidad, orquestación de pipelines, disponibilidad y performance, gobernanza técnica.
Límites típicos: no es responsable de decidir métricas de negocio ni de justificar causalidad; su foco es confiabilidad y acceso a datos.
Señales de alerta: se le pide “interpretar” resultados o definir estrategia de producto sin contexto; se le pide entrenar modelos sin tiempo/stack.

Ingeniero/a de ML (ML Engineer)

Responsabilidades: llevar modelos a producción, empaquetado, serving, CI/CD, monitoreo de performance del modelo, gestión de versiones de modelos y features, pruebas y rollback.
Límites típicos: no debería redefinir el objetivo del modelo ni la métrica de negocio; implementa y opera con criterios acordados.
Señales de alerta: se le entrega un notebook “final” sin tests ni dependencias claras; se le pide “mejorar el modelo” sin acceso al proceso de experimentación.

Producto/Negocio (Product Manager, Business Owner)

Responsabilidades: priorización, definición del problema y del impacto esperado, restricciones operativas, decisión de trade-offs (latencia vs precisión, costo vs cobertura), coordinación con stakeholders.
Límites típicos: no debería imponer técnicas específicas (“usen X algoritmo”) sin validar; su rol es el “para qué” y el “cómo se usa”.
Señales de alerta: cambios frecuentes de objetivo sin replanificación; expectativas de “predicción perfecta” sin aceptar incertidumbre.

Stakeholders (operaciones, legal, riesgo, marketing, ventas, etc.)

Responsabilidades: aportar contexto, restricciones, criterios de uso, validación de utilidad, aprobación de cambios en procesos, feedback de campo.
Límites típicos: no son responsables de implementar; sí de aceptar/usar el resultado y señalar riesgos.
Señales de alerta: piden resultados sin involucrarse en validación; bloquean acceso a datos sin alternativa.

Cómo se coordinan en el flujo pregunta → datos → análisis → validación → comunicación

Piensa el proyecto como una cadena de valor con handoffs explícitos. Cada etapa produce artefactos que habilitan la siguiente. La coordinación se vuelve más simple si cada rol sabe qué recibe, qué entrega y con qué criterios.

1) Pregunta (definición operativa y alcance)

Participan: Producto/Negocio + Stakeholders; Analista y/o Científico/a de datos para aterrizar factibilidad; a veces Ingeniería de datos para confirmar disponibilidad.
Entregables típicos: documento breve de alcance (1–2 páginas) con: objetivo, usuarios, decisión que se tomará, supuestos, restricciones, riesgos, y definición de “hecho”.
Handoff clave: Producto/Negocio → equipo de datos: una pregunta accionable y un criterio de aceptación verificable (aunque sea preliminar).

2) Datos (acceso, preparación y confiabilidad)

Participan: Ingeniería de datos (lidera); Analista/DS (especifica necesidades); Stakeholders (validan significado de campos).
Entregables típicos: dataset curado o vistas/tablas listas para análisis, diccionario de datos, reglas de calidad (tests), y un registro de linaje (de dónde viene cada campo).
Handoff clave: Ingeniería de datos → Analista/DS: tablas/vistas con contrato de esquema (campos, tipos, granularidad, actualización) y criterios de calidad mínimos.

3) Análisis (exploración, hipótesis, prototipos)

Participan: Analista (si es descriptivo/diagnóstico) y/o DS (si hay modelado/estimación avanzada); Producto/Negocio para iterar preguntas; Stakeholders para validar interpretaciones.
Entregables típicos: notebook reproducible o script, dataset de features (si aplica), resultados intermedios, y un resumen de hallazgos con implicaciones.
Handoff clave: Analista/DS → Producto/Negocio: insights con evidencia y recomendaciones; si hay modelo, una especificación de entrada/salida y supuestos.

4) Validación (técnica y de uso)

Participan: DS (validación técnica), ML Engineer (validación operativa), Producto/Negocio y Stakeholders (validación de utilidad y riesgo).
Entregables típicos: reporte de evaluación, pruebas de robustez, checklist de riesgos, plan de monitoreo, criterios de rollback, y aprobación para piloto.
Handoff clave: DS → ML Engineer: artefacto del modelo (o receta de entrenamiento) con métricas, dependencias, y contrato de predicción; Producto/Stakeholders → equipo: aceptación para pilotar.

5) Comunicación (decisión y adopción)

Participan: Producto/Negocio (decide), Analista/DS (explica), Stakeholders (adoptan), ML Engineer/DE (operan).
Entregables típicos: dashboard o informe, guía de uso (qué significa la salida y qué no), y plan de adopción (quién usa qué, cuándo, y con qué capacitación).
Handoff clave: Equipo de datos → operación/negocio: material de uso y soporte; Operación → equipo: feedback y métricas de adopción.

Entregables por rol (qué se espera “en la práctica”)

Rol	Entregables típicos	Formato recomendado	Criterios de calidad
Analista de datos	Consultas, análisis, dashboards, definiciones de KPIs	`.sql`, notebook, reporte breve, dashboard	Reproducible, fuentes claras, definiciones consistentes, filtros documentados
Científico/a de datos	Experimentos, features, modelos prototipo, evaluación	notebook + scripts, `requirements`, reporte de métricas	Reproducible, métricas trazables, supuestos explícitos, comparación con baseline
Ingeniero/a de datos	Pipelines, tablas/vistas, tests de calidad, linaje	código de pipeline, contratos de esquema, documentación	Idempotencia, monitoreo, SLAs, tests automáticos, control de accesos
ML Engineer	Serving, CI/CD, monitoreo, versionado de modelos	servicio/API, contenedor, pipeline de entrenamiento, runbooks	Latencia/escala, observabilidad, rollback, seguridad, reproducibilidad
Producto/Negocio	PRD/brief, priorización, plan de adopción	documento, tickets, roadmap	Objetivo claro, criterios de aceptación, stakeholders alineados
Stakeholders	Validación de significado, restricciones, feedback	comentarios en doc, checklist, actas	Consistencia operativa, riesgos identificados, acuerdos explícitos

Puntos de handoff: qué se entrega, en qué formato y con qué criterios

Handoff A: Negocio → Equipo de datos (inicio del trabajo)

Se entrega: brief con objetivo, decisión a habilitar, usuarios, restricciones, ventana temporal, y definición de éxito.
Formato: documento + tickets (backlog) con prioridades.
Criterios: la pregunta debe ser accionable; debe existir un dueño de decisión; deben estar listos los permisos básicos o un plan para obtenerlos.

Handoff B: Ingeniería de datos → Analista/DS (dataset listo)

Se entrega: tablas/vistas con granularidad definida (por ejemplo: “una fila por cliente por día”), diccionario, y reglas de actualización.
Formato: contrato de datos (campos, tipos, nulls esperados), consultas de ejemplo, documentación.
Criterios: consistencia temporal, claves únicas, tests de calidad pasando, y acceso controlado.

Handoff C: Analista/DS → Producto/Stakeholders (hallazgos o prototipo)

Se entrega: resultados interpretables, limitaciones, y recomendación de acción; si hay modelo, explicación de entradas/salidas y casos donde falla.
Formato: reporte breve + visualizaciones; notebook reproducible adjunto.
Criterios: trazabilidad (de qué datos sale), claridad de supuestos, y alineación con la decisión a tomar.

Handoff D: DS → ML Engineer (para producción)

Se entrega: artefacto del modelo o receta de entrenamiento, pipeline de features, métricas objetivo, y set de pruebas.
Formato: repositorio con código modular, archivo de dependencias, modelo serializado si aplica, y especificación de API (input_schema/output_schema).
Criterios: reproducibilidad (misma entrada → misma salida), versionado, tests mínimos, y definición de monitoreo.

Handoff E: ML Engineer/DE → Operación/Negocio (lanzamiento)

Se entrega: endpoint o integración, dashboard de monitoreo, runbook (qué hacer si falla), y guía de uso.
Formato: documentación operativa + checklist de despliegue.
Criterios: SLAs acordados, alertas configuradas, plan de rollback, y responsables asignados.

Herramientas por categoría (sin depender de una plataforma específica)

Lenguajes

SQL: extracción, transformación, validación de datos, creación de vistas/tablas analíticas.
Python: análisis, automatización, ML, pipelines, APIs.
R: análisis estadístico, visualización, reporting reproducible.

Entornos de análisis y ejecución

Notebooks: prototipado y exploración (útiles para DS/Analista).
Scripts/paquetes: cuando el trabajo debe ser mantenible y testeable (transición a producción).
Gestión de entornos: archivos de dependencias y entornos aislados para reproducibilidad.

Control de versiones y colaboración

Git: ramas, revisiones (pull/merge requests), historial y trazabilidad.
Convenciones: mensajes de commit claros, revisiones obligatorias para cambios críticos, y etiquetado de versiones.

Bases de datos y almacenamiento

Relacionales (SQL): datos estructurados, integridad, consultas complejas.
Columnar/analítico: grandes volúmenes para análisis eficiente.
Objetos/archivos: datasets en formatos como Parquet/CSV para intercambio y batch.

Pipelines y orquestación

ETL/ELT: transformaciones programadas, dependencias entre tareas, reintentos.
Calidad de datos: tests automáticos (por ejemplo: unicidad, rangos, nulls, frescura).
Observabilidad: logs, métricas, alertas y trazas de ejecución.

Visualización

Bibliotecas: gráficos en código para exploración y reportes.
Herramientas BI: dashboards para consumo recurrente por negocio.
Buenas prácticas: definición de métricas centralizada y filtros documentados.

Documentación

Diccionario de datos: significado, unidades, reglas de cálculo, dueño del campo.
Docs de proyecto: alcance, decisiones, supuestos, riesgos, y cambios.
Runbooks: operación: qué monitorear, umbrales, pasos de recuperación.

Guía práctica paso a paso: cómo organizar un proyecto colaborativo en 10 pasos

Paso 1: Definir roles y un “dueño” por decisión

Lista quién decide (Producto/Negocio), quién implementa (DE/ML Eng), quién analiza (Analista/DS) y quién valida uso/riesgo (Stakeholders). Aclara disponibilidad y canales de comunicación.

Paso 2: Crear un brief operativo

En una página: objetivo, usuarios, decisión, restricciones, horizonte temporal, y criterios de aceptación. Evita ambigüedades como “mejorar” sin cuantificar.

Paso 3: Acordar el contrato de datos mínimo

Define granularidad, claves, ventana temporal, frecuencia de actualización, y campos imprescindibles. Esto reduce iteraciones costosas.

Continúa en nuestra aplicación.

Escuche el audio con la pantalla apagada.
Obtenga un certificado al finalizar.
¡Más de 5000 cursos para que explores!

O continúa leyendo más abajo...

Descargar la aplicación

Paso 4: Preparar un repositorio y estructura de trabajo

Incluye carpetas para src/, notebooks/, docs/, tests/ y archivos de dependencias. Establece revisión por pares para cambios relevantes.

Paso 5: Construir el dataset curado con tests

Ingeniería de datos entrega tablas/vistas y tests automáticos. El equipo acuerda qué significa “dato listo”: frescura, completitud y consistencia.

Paso 6: Prototipar análisis/modelo de forma reproducible

Analista/DS trabaja en notebook para iterar rápido, pero registra decisiones y fija semillas/versions cuando aplique. Si el prototipo avanza, migra a scripts.

Paso 7: Preparar el handoff técnico (si hay ML)

El DS entrega: esquema de entrada/salida, pipeline de features, métricas objetivo, y un conjunto de pruebas. El ML Engineer valida que se pueda ejecutar en un entorno limpio.

Paso 8: Validar con stakeholders en un piloto controlado

Define quién usa la salida, cómo se integra en el proceso, y qué feedback se recoge. Asegura que la interpretación de la salida esté documentada.

Paso 9: Desplegar con monitoreo y runbook

ML Engineer/DE implementan alertas (datos y modelo), logging y procedimientos de rollback. Producto acuerda umbrales de acción (qué pasa si baja el rendimiento).

Paso 10: Establecer cadencia de revisión

Reunión corta y periódica para revisar: calidad de datos, desempeño, incidencias, adopción y cambios de requisitos. Todo cambio relevante actualiza documentación y tickets.

Ejemplo práctico de handoff (mini-plantillas)

Plantilla de contrato de datos (extracto)

dataset: ventas_diarias_cliente
granularidad: 1 fila por cliente_id por fecha
actualizacion: diaria 06:00
campos_clave: cliente_id (string), fecha (date)
campos: total_ventas (float), num_transacciones (int), canal (string)
reglas_calidad:
  - cliente_id no nulo
  - fecha no nula
  - unicidad (cliente_id, fecha)
  - total_ventas >= 0
sla_frescura: <= 24h
owner: data_engineering

Plantilla de especificación de predicción (si aplica)

nombre_modelo: propension_compra_v1
input_schema:
  - cliente_id: string
  - features_fecha: date
  - total_ventas_30d: float
output_schema:
  - score: float (0 a 1)
  - version_modelo: string
uso_previsto:
  - priorizar clientes para campaña semanal
no_usar_para:
  - decisiones de crédito o sanciones
criterios_operativos:
  - latencia p95 < 200ms
  - disponibilidad >= 99.5%
monitoreo:
  - drift de features
  - tasa de scores extremos
  - performance offline semanal

Ahora responde el ejercicio sobre el contenido:

En un proyecto de Ciencia de Datos, ¿qué debe incluir el handoff de Ingeniería de datos hacia Analista/DS para que el dataset se considere “listo” para análisis?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

El handoff de datos busca asegurar confiabilidad y claridad de uso: se entregan tablas/vistas listas para análisis junto con contrato de esquema, diccionario y reglas de calidad verificables (tests), de modo que el Analista/DS sepa qué recibe y con qué garantías.

Siguiente capítulo

Errores comunes en proyectos de Ciencia de Datos para principiantes: prevención y corrección

82%

Fundamentos de Ciencia de Datos para Principiantes: del problema al insight

Nuevo curso

11 páginas