Modelos clásicos de Machine Learning explicados sin fórmulas

Capítulo 6

Tiempo estimado de lectura: 11 minutos

+ Ejercicio

Regresión: predecir números

Idea central: aprender una relación entre variables de entrada (por ejemplo, metros cuadrados, zona, antigüedad) y un valor numérico (por ejemplo, precio). El modelo intenta que, para entradas parecidas, la salida sea coherente.

Qué problema resuelve

  • Predicción de valores continuos: precio, demanda, tiempo de entrega, consumo, temperatura.
  • Estimaciones y “qué pasaría si”: cómo cambia el resultado si sube una variable (útil para simulaciones simples).

Qué tipo de datos tolera

  • Entradas numéricas (ideal).
  • Categóricas (zona, tipo de producto) si se codifican en variables que el modelo pueda leer.
  • Texto e imágenes normalmente requieren convertirlos a características numéricas antes (por ejemplo, embeddings), pero el modelo de regresión en sí trabaja con números.
  • Valores faltantes: suele requerir imputación o un tratamiento previo; algunos modelos lineales no los aceptan directamente.

Ventajas

  • Rápida de entrenar y fácil de desplegar.
  • Buena línea base: si esto ya funciona bien, quizá no necesitas algo más complejo.
  • Interpretabilidad razonable en variantes simples (entender qué variables empujan el resultado).

Limitaciones

  • Si la relación real es muy no lineal o depende de interacciones complejas, una regresión simple puede quedarse corta.
  • Sensible a valores atípicos (outliers) si no se tratan.
  • Puede extrapolar mal fuera del rango visto en entrenamiento (por ejemplo, predecir precios absurdos para casas enormes si nunca vio casas enormes).

Señales de que puede fallar

  • Errores muy grandes concentrados en ciertos rangos (por ejemplo, falla solo en productos premium).
  • Predicciones negativas o imposibles (tiempos negativos, consumos negativos) si no se restringe.
  • El error empeora mucho cuando cambian condiciones (estacionalidad, inflación, cambios de catálogo) y el modelo no lo “ve” en las variables.

Guía práctica paso a paso (regresión como primer intento)

  1. Define el número a predecir y la unidad (por ejemplo, “ventas semanales”).
  2. Revisa el rango: mínimos, máximos, valores imposibles; decide si necesitas transformar (por ejemplo, usar log si hay colas largas).
  3. Prepara variables: numéricas escaladas si hace falta; categóricas codificadas; fechas convertidas a señales útiles (día de semana, mes).
  4. Entrena una línea base (regresión simple o regularizada) y mide error con una métrica adecuada (MAE/MSE según el caso).
  5. Inspecciona errores por segmento (por zona, por tipo de producto, por rango de precio).
  6. Si falla en no linealidades, prueba árboles/bosques antes de complicarte con modelos más avanzados.

Clasificación: predecir categorías

Idea central: asignar una etiqueta a cada caso: fraude/no fraude, churn/no churn, spam/no spam, tipo de flor, prioridad (alta/media/baja). En lugar de un número, el resultado es una clase (y a menudo una probabilidad por clase).

Qué problema resuelve

  • Decisiones discretas: aprobar o rechazar, detectar anomalías etiquetadas, enrutar tickets, diagnosticar categorías.
  • Priorización: ordenar casos por probabilidad de pertenecer a una clase (por ejemplo, “probabilidad de fraude”).

Qué tipo de datos tolera

  • Numéricos y categóricos (con codificación).
  • Texto (si lo conviertes a características: bolsa de palabras, TF-IDF, embeddings).
  • Imágenes (si extraes características; en la práctica se usan redes neuronales, pero el concepto de clasificación es el mismo).
  • Desbalance (una clase muy rara) es común; se tolera, pero requiere cuidados.

Ventajas

  • Salida interpretable como decisión o probabilidad.
  • Permite ajustar umbrales según el costo del error (por ejemplo, preferir menos falsos negativos en fraude).
  • Muchas opciones: desde modelos simples y rápidos hasta más potentes.

Limitaciones

  • Si las clases se solapan mucho en los datos, ningún modelo separará bien.
  • Con clases desbalanceadas, un modelo puede “parecer” bueno acertando siempre la clase mayoritaria.
  • La probabilidad puede estar mal calibrada (decir 0.9 cuando en realidad acierta 0.6).

Señales de que puede fallar

  • Alta exactitud pero bajo recall en la clase importante (por ejemplo, detecta pocos fraudes).
  • Rendimiento muy distinto entre grupos (por región, dispositivo, canal), indicando sesgo o variables faltantes.
  • Muchas predicciones “cerca del 50%” (incertidumbre alta) sin una forma clara de mejorar con más datos o mejores variables.

Guía práctica paso a paso (clasificación)

  1. Define clases y costos: ¿qué es peor, un falso positivo o un falso negativo?
  2. Elige métricas acordes: precision/recall/F1, AUC, matriz de confusión.
  3. Prepara variables y separa datos de validación.
  4. Entrena un modelo base (por ejemplo, regresión logística o un árbol).
  5. Ajusta el umbral de decisión según el costo (no siempre es 0.5).
  6. Analiza errores: ¿qué patrones tienen los casos mal clasificados?

Árboles de decisión: decisiones en pasos

Idea central: un árbol hace preguntas en cadena (por ejemplo, “¿edad > 30?”, “¿ingresos > X?”, “¿historial de impagos?”) hasta llegar a una decisión final. Cada pregunta divide los datos en grupos más “puros” (más parecidos entre sí).

Qué problema resuelve

  • Clasificación y regresión cuando la relación es no lineal o depende de reglas por tramos.
  • Casos donde quieres una lógica explicable tipo “si pasa esto y esto, entonces…”.

Qué tipo de datos tolera

  • Numéricos y categóricos (según implementación; a veces hay que codificar categóricas).
  • No requiere escalado de variables en muchos casos.
  • Puede manejar interacciones (combinaciones de variables) de forma natural.

Ventajas

  • Interpretables: puedes visualizar el camino de decisión.
  • Capturan no linealidades sin ingeniería compleja.
  • Funcionan bien como primer modelo “no lineal”.

Limitaciones

  • Tienden a sobreajustar si crecen demasiado (memorizan el entrenamiento).
  • Inestables: pequeños cambios en datos pueden cambiar el árbol.
  • Un solo árbol suele tener rendimiento limitado frente a ensambles (bosques).

Señales de que puede fallar

  • Rendimiento excelente en entrenamiento pero cae mucho en validación.
  • El árbol se vuelve muy profundo con muchas ramas para “explicar” casos raros.
  • Predicciones erráticas ante pequeñas variaciones de entrada.

Guía práctica paso a paso (árbol)

  1. Entrena un árbol simple con profundidad limitada.
  2. Revisa la profundidad y el tamaño de hojas: si es enorme, recorta (pruning) o limita.
  3. Valida con datos no vistos y compara contra una línea base más simple.
  4. Si necesitas más potencia, pasa a un bosque aleatorio antes de complicar reglas manuales.

Bosques aleatorios (Random Forest): muchas decisiones, mejor promedio

Idea central: en vez de un solo árbol, entrenas muchos árboles con variaciones (muestras distintas de datos y subconjuntos de variables). Luego promedias (regresión) o votas (clasificación). Esto reduce la inestabilidad y el sobreajuste típico de un árbol único.

Qué problema resuelve

  • Clasificación y regresión robustas en datos tabulares (hojas de cálculo, bases de datos).
  • Escenarios con relaciones no lineales y muchas interacciones.

Qué tipo de datos tolera

  • Tabulares con mezcla de numéricos y categóricos (con el preprocesamiento adecuado).
  • No requiere escalado en la mayoría de casos.
  • Soporta muchas variables; aun así, variables irrelevantes pueden añadir ruido.

Ventajas

  • Rendimiento fuerte “out of the box” en muchos problemas.
  • Menos sobreajuste que un árbol solo.
  • Da señales de importancia de variables (útil para diagnóstico).

Limitaciones

  • Menos interpretable que un árbol único (aunque se puede explicar con herramientas de interpretabilidad).
  • Más pesado: más memoria y más tiempo de inferencia.
  • No extrapola bien fuera del rango visto (como muchos modelos basados en particiones).

Señales de que puede fallar

  • Datos con fuerte dependencia temporal donde el “barajado” rompe la lógica (por ejemplo, series de tiempo sin variables adecuadas).
  • Muchas variables altamente correlacionadas y ruido: puede necesitar más datos o mejor ingeniería.
  • Predicciones “escalonadas” en regresión (por la naturaleza de promediar hojas).

Guía práctica paso a paso (bosque)

  1. Entrena con parámetros por defecto como línea base potente.
  2. Ajusta el número de árboles (más árboles suele estabilizar, con costo computacional).
  3. Controla la complejidad (profundidad máxima, mínimo de muestras por hoja).
  4. Revisa importancias y valida si tienen sentido; si no, puede haber fuga de información o variables mal construidas.

k-Vecinos más cercanos (k-NN): comparar con casos similares

Idea central: para predecir un caso nuevo, buscas los k casos más parecidos en el historial y decides por mayoría (clasificación) o promedio (regresión). No “aprende” una fórmula global; se apoya en la memoria de ejemplos.

Continúa en nuestra aplicación.
  • Escuche el audio con la pantalla apagada.
  • Obtenga un certificado al finalizar.
  • ¡Más de 5000 cursos para que explores!
O continúa leyendo más abajo...
Download App

Descargar la aplicación

Qué problema resuelve

  • Clasificación/regresión cuando “lo parecido se comporta parecido”.
  • Problemas con fronteras complejas donde un modelo global simple no encaja.

Qué tipo de datos tolera

  • Numéricos principalmente, porque depende de una medida de distancia.
  • Categóricos son posibles, pero requieren una distancia adecuada o codificación cuidadosa.
  • Escalado suele ser crucial: si una variable tiene valores enormes dominará la distancia.

Ventajas

  • Muy simple de implementar y explicar.
  • Flexible: se adapta a patrones locales.
  • Buen baseline cuando tienes pocos supuestos sobre la forma de la relación.

Limitaciones

  • Costoso al predecir si el dataset es grande (hay que buscar vecinos).
  • Sensible al ruido y a variables irrelevantes.
  • En alta dimensión (muchas variables), la noción de “cercanía” se degrada: muchos puntos parecen igual de lejos.

Señales de que puede fallar

  • El rendimiento cambia mucho al variar k (inestabilidad).
  • Necesitas escalar y aun así los vecinos “no se parecen” en lo importante.
  • La precisión cae al añadir más variables (síntoma de alta dimensionalidad o variables ruidosas).

Guía práctica paso a paso (k-NN)

  1. Escala variables numéricas (por ejemplo, normalización) para que ninguna domine.
  2. Elige una distancia (euclídea como inicio; otras si el dominio lo requiere).
  3. Prueba varios valores de k y valida: k pequeño capta detalle pero puede sobreajustar; k grande suaviza pero puede perder señal.
  4. Revisa variables: elimina o reduce las que metan ruido; considera reducción de dimensionalidad si hay muchas.

Clustering: agrupar sin etiquetas

Idea central: encontrar grupos de casos similares cuando no tienes una etiqueta objetivo. Sirve para segmentación (clientes, productos), exploración y como paso previo para otras tareas (por ejemplo, crear una variable “segmento”).

Qué problema resuelve

  • Segmentación de clientes por comportamiento.
  • Agrupar documentos o productos por similitud.
  • Detectar patrones y posibles outliers (según el método).

Qué tipo de datos tolera

  • Numéricos (lo más común).
  • Mixtos (numéricos + categóricos) con técnicas específicas o transformaciones.
  • Escalado suele ser importante: el clustering depende de distancias o densidades.

Ventajas

  • No requiere etiquetas: útil cuando no existe “la respuesta correcta”.
  • Ayuda a entender la estructura del dataset y a comunicar segmentos al negocio.
  • Puede mejorar modelos supervisados al añadir el cluster como característica.

Limitaciones

  • No hay una “verdad” única: distintos métodos dan agrupaciones distintas.
  • Puede crear clusters que parecen reales pero son artefactos de escala, ruido o variables mal elegidas.
  • Interpretar clusters requiere contexto: el algoritmo no sabe qué significa “útil”.

Señales de que puede fallar

  • Clusters que cambian drásticamente al reentrenar o al cambiar un parámetro.
  • Grupos difíciles de describir (sin rasgos distintivos claros).
  • Los clusters no se correlacionan con ninguna acción o resultado relevante (no son accionables).

Guía práctica paso a paso (clustering como exploración)

  1. Elige variables de comportamiento (no solo identificadores).
  2. Escala variables numéricas.
  3. Prueba un método simple (por ejemplo, k-means) y varios números de clusters.
  4. Perfila cada cluster: promedios, proporciones, ejemplos representativos.
  5. Valida con sentido de negocio: ¿cada grupo sugiere una acción distinta?

Mapa de decisión simple para elegir un modelo inicial

PreguntaSi la respuesta es “sí”Modelo inicial sugeridoNotas rápidas
¿Tu objetivo es un número (precio, demanda)?RegresiónSi hay no linealidad fuerte, prueba Bosque Aleatorio.
¿Tu objetivo es una categoría (spam/no spam)?ClasificaciónSi necesitas reglas explicables, empieza con Árbol.
¿Quieres una lógica tipo “preguntas en pasos” y explicabilidad?Árbol de DecisiónLimita profundidad para evitar sobreajuste.
¿Quieres buen rendimiento en datos tabulares sin mucho ajuste?Bosque AleatorioRobusto; menos interpretable que un árbol único.
¿Tu intuición es “casos similares → resultados similares” y el dataset no es enorme?k-NNEscalado obligatorio; cuidado con muchas variables.
¿No tienes etiquetas y quieres segmentar o explorar?ClusteringPerfila clusters y valida que sean accionables.

Ahora responde el ejercicio sobre el contenido:

Si tu objetivo es predecir un valor numérico (por ejemplo, precio o demanda), ¿qué modelo inicial es el más adecuado según el tipo de problema?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

La regresión se usa cuando la salida que quieres predecir es un número continuo. Clasificación predice categorías, y clustering agrupa datos sin una etiqueta objetivo.

Siguiente capítulo

Evaluación en Machine Learning: cómo saber si el modelo funciona

Arrow Right Icon
Portada de libro electrónico gratuitaMachine Learning Explicado de Forma Simple
60%

Machine Learning Explicado de Forma Simple

Nuevo curso

10 páginas

Descarga la aplicación para obtener una certificación gratuita y escuchar cursos en segundo plano, incluso con la pantalla apagada.