Regresión: predecir números
Idea central: aprender una relación entre variables de entrada (por ejemplo, metros cuadrados, zona, antigüedad) y un valor numérico (por ejemplo, precio). El modelo intenta que, para entradas parecidas, la salida sea coherente.
Qué problema resuelve
- Predicción de valores continuos: precio, demanda, tiempo de entrega, consumo, temperatura.
- Estimaciones y “qué pasaría si”: cómo cambia el resultado si sube una variable (útil para simulaciones simples).
Qué tipo de datos tolera
- Entradas numéricas (ideal).
- Categóricas (zona, tipo de producto) si se codifican en variables que el modelo pueda leer.
- Texto e imágenes normalmente requieren convertirlos a características numéricas antes (por ejemplo, embeddings), pero el modelo de regresión en sí trabaja con números.
- Valores faltantes: suele requerir imputación o un tratamiento previo; algunos modelos lineales no los aceptan directamente.
Ventajas
- Rápida de entrenar y fácil de desplegar.
- Buena línea base: si esto ya funciona bien, quizá no necesitas algo más complejo.
- Interpretabilidad razonable en variantes simples (entender qué variables empujan el resultado).
Limitaciones
- Si la relación real es muy no lineal o depende de interacciones complejas, una regresión simple puede quedarse corta.
- Sensible a valores atípicos (outliers) si no se tratan.
- Puede extrapolar mal fuera del rango visto en entrenamiento (por ejemplo, predecir precios absurdos para casas enormes si nunca vio casas enormes).
Señales de que puede fallar
- Errores muy grandes concentrados en ciertos rangos (por ejemplo, falla solo en productos premium).
- Predicciones negativas o imposibles (tiempos negativos, consumos negativos) si no se restringe.
- El error empeora mucho cuando cambian condiciones (estacionalidad, inflación, cambios de catálogo) y el modelo no lo “ve” en las variables.
Guía práctica paso a paso (regresión como primer intento)
- Define el número a predecir y la unidad (por ejemplo, “ventas semanales”).
- Revisa el rango: mínimos, máximos, valores imposibles; decide si necesitas transformar (por ejemplo, usar log si hay colas largas).
- Prepara variables: numéricas escaladas si hace falta; categóricas codificadas; fechas convertidas a señales útiles (día de semana, mes).
- Entrena una línea base (regresión simple o regularizada) y mide error con una métrica adecuada (MAE/MSE según el caso).
- Inspecciona errores por segmento (por zona, por tipo de producto, por rango de precio).
- Si falla en no linealidades, prueba árboles/bosques antes de complicarte con modelos más avanzados.
Clasificación: predecir categorías
Idea central: asignar una etiqueta a cada caso: fraude/no fraude, churn/no churn, spam/no spam, tipo de flor, prioridad (alta/media/baja). En lugar de un número, el resultado es una clase (y a menudo una probabilidad por clase).
Qué problema resuelve
- Decisiones discretas: aprobar o rechazar, detectar anomalías etiquetadas, enrutar tickets, diagnosticar categorías.
- Priorización: ordenar casos por probabilidad de pertenecer a una clase (por ejemplo, “probabilidad de fraude”).
Qué tipo de datos tolera
- Numéricos y categóricos (con codificación).
- Texto (si lo conviertes a características: bolsa de palabras, TF-IDF, embeddings).
- Imágenes (si extraes características; en la práctica se usan redes neuronales, pero el concepto de clasificación es el mismo).
- Desbalance (una clase muy rara) es común; se tolera, pero requiere cuidados.
Ventajas
- Salida interpretable como decisión o probabilidad.
- Permite ajustar umbrales según el costo del error (por ejemplo, preferir menos falsos negativos en fraude).
- Muchas opciones: desde modelos simples y rápidos hasta más potentes.
Limitaciones
- Si las clases se solapan mucho en los datos, ningún modelo separará bien.
- Con clases desbalanceadas, un modelo puede “parecer” bueno acertando siempre la clase mayoritaria.
- La probabilidad puede estar mal calibrada (decir 0.9 cuando en realidad acierta 0.6).
Señales de que puede fallar
- Alta exactitud pero bajo recall en la clase importante (por ejemplo, detecta pocos fraudes).
- Rendimiento muy distinto entre grupos (por región, dispositivo, canal), indicando sesgo o variables faltantes.
- Muchas predicciones “cerca del 50%” (incertidumbre alta) sin una forma clara de mejorar con más datos o mejores variables.
Guía práctica paso a paso (clasificación)
- Define clases y costos: ¿qué es peor, un falso positivo o un falso negativo?
- Elige métricas acordes: precision/recall/F1, AUC, matriz de confusión.
- Prepara variables y separa datos de validación.
- Entrena un modelo base (por ejemplo, regresión logística o un árbol).
- Ajusta el umbral de decisión según el costo (no siempre es 0.5).
- Analiza errores: ¿qué patrones tienen los casos mal clasificados?
Árboles de decisión: decisiones en pasos
Idea central: un árbol hace preguntas en cadena (por ejemplo, “¿edad > 30?”, “¿ingresos > X?”, “¿historial de impagos?”) hasta llegar a una decisión final. Cada pregunta divide los datos en grupos más “puros” (más parecidos entre sí).
Qué problema resuelve
- Clasificación y regresión cuando la relación es no lineal o depende de reglas por tramos.
- Casos donde quieres una lógica explicable tipo “si pasa esto y esto, entonces…”.
Qué tipo de datos tolera
- Numéricos y categóricos (según implementación; a veces hay que codificar categóricas).
- No requiere escalado de variables en muchos casos.
- Puede manejar interacciones (combinaciones de variables) de forma natural.
Ventajas
- Interpretables: puedes visualizar el camino de decisión.
- Capturan no linealidades sin ingeniería compleja.
- Funcionan bien como primer modelo “no lineal”.
Limitaciones
- Tienden a sobreajustar si crecen demasiado (memorizan el entrenamiento).
- Inestables: pequeños cambios en datos pueden cambiar el árbol.
- Un solo árbol suele tener rendimiento limitado frente a ensambles (bosques).
Señales de que puede fallar
- Rendimiento excelente en entrenamiento pero cae mucho en validación.
- El árbol se vuelve muy profundo con muchas ramas para “explicar” casos raros.
- Predicciones erráticas ante pequeñas variaciones de entrada.
Guía práctica paso a paso (árbol)
- Entrena un árbol simple con profundidad limitada.
- Revisa la profundidad y el tamaño de hojas: si es enorme, recorta (pruning) o limita.
- Valida con datos no vistos y compara contra una línea base más simple.
- Si necesitas más potencia, pasa a un bosque aleatorio antes de complicar reglas manuales.
Bosques aleatorios (Random Forest): muchas decisiones, mejor promedio
Idea central: en vez de un solo árbol, entrenas muchos árboles con variaciones (muestras distintas de datos y subconjuntos de variables). Luego promedias (regresión) o votas (clasificación). Esto reduce la inestabilidad y el sobreajuste típico de un árbol único.
Qué problema resuelve
- Clasificación y regresión robustas en datos tabulares (hojas de cálculo, bases de datos).
- Escenarios con relaciones no lineales y muchas interacciones.
Qué tipo de datos tolera
- Tabulares con mezcla de numéricos y categóricos (con el preprocesamiento adecuado).
- No requiere escalado en la mayoría de casos.
- Soporta muchas variables; aun así, variables irrelevantes pueden añadir ruido.
Ventajas
- Rendimiento fuerte “out of the box” en muchos problemas.
- Menos sobreajuste que un árbol solo.
- Da señales de importancia de variables (útil para diagnóstico).
Limitaciones
- Menos interpretable que un árbol único (aunque se puede explicar con herramientas de interpretabilidad).
- Más pesado: más memoria y más tiempo de inferencia.
- No extrapola bien fuera del rango visto (como muchos modelos basados en particiones).
Señales de que puede fallar
- Datos con fuerte dependencia temporal donde el “barajado” rompe la lógica (por ejemplo, series de tiempo sin variables adecuadas).
- Muchas variables altamente correlacionadas y ruido: puede necesitar más datos o mejor ingeniería.
- Predicciones “escalonadas” en regresión (por la naturaleza de promediar hojas).
Guía práctica paso a paso (bosque)
- Entrena con parámetros por defecto como línea base potente.
- Ajusta el número de árboles (más árboles suele estabilizar, con costo computacional).
- Controla la complejidad (profundidad máxima, mínimo de muestras por hoja).
- Revisa importancias y valida si tienen sentido; si no, puede haber fuga de información o variables mal construidas.
k-Vecinos más cercanos (k-NN): comparar con casos similares
Idea central: para predecir un caso nuevo, buscas los k casos más parecidos en el historial y decides por mayoría (clasificación) o promedio (regresión). No “aprende” una fórmula global; se apoya en la memoria de ejemplos.
- Escuche el audio con la pantalla apagada.
- Obtenga un certificado al finalizar.
- ¡Más de 5000 cursos para que explores!
Descargar la aplicación
Qué problema resuelve
- Clasificación/regresión cuando “lo parecido se comporta parecido”.
- Problemas con fronteras complejas donde un modelo global simple no encaja.
Qué tipo de datos tolera
- Numéricos principalmente, porque depende de una medida de distancia.
- Categóricos son posibles, pero requieren una distancia adecuada o codificación cuidadosa.
- Escalado suele ser crucial: si una variable tiene valores enormes dominará la distancia.
Ventajas
- Muy simple de implementar y explicar.
- Flexible: se adapta a patrones locales.
- Buen baseline cuando tienes pocos supuestos sobre la forma de la relación.
Limitaciones
- Costoso al predecir si el dataset es grande (hay que buscar vecinos).
- Sensible al ruido y a variables irrelevantes.
- En alta dimensión (muchas variables), la noción de “cercanía” se degrada: muchos puntos parecen igual de lejos.
Señales de que puede fallar
- El rendimiento cambia mucho al variar k (inestabilidad).
- Necesitas escalar y aun así los vecinos “no se parecen” en lo importante.
- La precisión cae al añadir más variables (síntoma de alta dimensionalidad o variables ruidosas).
Guía práctica paso a paso (k-NN)
- Escala variables numéricas (por ejemplo, normalización) para que ninguna domine.
- Elige una distancia (euclídea como inicio; otras si el dominio lo requiere).
- Prueba varios valores de k y valida: k pequeño capta detalle pero puede sobreajustar; k grande suaviza pero puede perder señal.
- Revisa variables: elimina o reduce las que metan ruido; considera reducción de dimensionalidad si hay muchas.
Clustering: agrupar sin etiquetas
Idea central: encontrar grupos de casos similares cuando no tienes una etiqueta objetivo. Sirve para segmentación (clientes, productos), exploración y como paso previo para otras tareas (por ejemplo, crear una variable “segmento”).
Qué problema resuelve
- Segmentación de clientes por comportamiento.
- Agrupar documentos o productos por similitud.
- Detectar patrones y posibles outliers (según el método).
Qué tipo de datos tolera
- Numéricos (lo más común).
- Mixtos (numéricos + categóricos) con técnicas específicas o transformaciones.
- Escalado suele ser importante: el clustering depende de distancias o densidades.
Ventajas
- No requiere etiquetas: útil cuando no existe “la respuesta correcta”.
- Ayuda a entender la estructura del dataset y a comunicar segmentos al negocio.
- Puede mejorar modelos supervisados al añadir el cluster como característica.
Limitaciones
- No hay una “verdad” única: distintos métodos dan agrupaciones distintas.
- Puede crear clusters que parecen reales pero son artefactos de escala, ruido o variables mal elegidas.
- Interpretar clusters requiere contexto: el algoritmo no sabe qué significa “útil”.
Señales de que puede fallar
- Clusters que cambian drásticamente al reentrenar o al cambiar un parámetro.
- Grupos difíciles de describir (sin rasgos distintivos claros).
- Los clusters no se correlacionan con ninguna acción o resultado relevante (no son accionables).
Guía práctica paso a paso (clustering como exploración)
- Elige variables de comportamiento (no solo identificadores).
- Escala variables numéricas.
- Prueba un método simple (por ejemplo, k-means) y varios números de clusters.
- Perfila cada cluster: promedios, proporciones, ejemplos representativos.
- Valida con sentido de negocio: ¿cada grupo sugiere una acción distinta?
Mapa de decisión simple para elegir un modelo inicial
| Pregunta | Si la respuesta es “sí” | Modelo inicial sugerido | Notas rápidas |
|---|---|---|---|
| ¿Tu objetivo es un número (precio, demanda)? | Sí | Regresión | Si hay no linealidad fuerte, prueba Bosque Aleatorio. |
| ¿Tu objetivo es una categoría (spam/no spam)? | Sí | Clasificación | Si necesitas reglas explicables, empieza con Árbol. |
| ¿Quieres una lógica tipo “preguntas en pasos” y explicabilidad? | Sí | Árbol de Decisión | Limita profundidad para evitar sobreajuste. |
| ¿Quieres buen rendimiento en datos tabulares sin mucho ajuste? | Sí | Bosque Aleatorio | Robusto; menos interpretable que un árbol único. |
| ¿Tu intuición es “casos similares → resultados similares” y el dataset no es enorme? | Sí | k-NN | Escalado obligatorio; cuidado con muchas variables. |
| ¿No tienes etiquetas y quieres segmentar o explorar? | Sí | Clustering | Perfila clusters y valida que sean accionables. |