Todos los cursos > Informática ( TI ) > Inteligencia artificial y Ciencia de los datos ::

Tipos de aprendizaje en Machine Learning: supervisado, no supervisado y por refuerzo

Capítulo 3

Tiempo estimado de lectura: 7 minutos

Tres formas de “aprender” a partir de datos

En Machine Learning, el tipo de aprendizaje describe qué información recibe el modelo mientras aprende y qué tipo de objetivo intentas lograr. Hay tres enfoques principales: supervisado (aprende con respuestas correctas), no supervisado (aprende sin respuestas, buscando estructura) y por refuerzo (aprende tomando decisiones y recibiendo recompensas o castigos).

Enfoque	Qué recibe	Qué produce	Ejemplos típicos
Supervisado	Datos + etiquetas (respuesta correcta)	Predicción de una etiqueta/valor	Spam/no spam, precio de vivienda
No supervisado	Solo datos (sin etiquetas)	Grupos, patrones, estructura	Segmentación de clientes, detección de anomalías
Por refuerzo	Estado + acciones + recompensa	Política de decisiones (qué hacer)	Robots, juegos, control de inventario

Aprendizaje supervisado: aprender con ejemplos “correctos”

En el aprendizaje supervisado, cada ejemplo de entrenamiento viene con una etiqueta: la respuesta que quieres que el modelo aprenda a predecir. El modelo ajusta sus parámetros para que, al ver entradas similares en el futuro, produzca una salida parecida a la etiqueta.

Qué son las etiquetas (y por qué importan)

Una etiqueta es el “resultado” asociado a cada fila de datos. Puede ser:

Categórica (clasificación): fraude vs no fraude, aprobado vs rechazado.
Numérica (regresión): precio, demanda, tiempo de entrega.

El aprendizaje supervisado es ideal cuando puedes definir claramente qué es “correcto” y tienes suficientes ejemplos etiquetados.

Ejemplo concreto 1: clasificar correos como spam

Datos (X): características del correo (palabras, remitente, enlaces, longitud). Etiqueta (y): spam o no_spam. El modelo aprende patrones que suelen aparecer en spam y luego clasifica correos nuevos.

Continúa en nuestra aplicación.

Escuche el audio con la pantalla apagada.
Obtenga un certificado al finalizar.
¡Más de 5000 cursos para que explores!

O continúa leyendo más abajo...

Descargar la aplicación

Ejemplo concreto 2: predecir el precio de una vivienda

Datos (X): metros cuadrados, barrio, número de habitaciones, antigüedad. Etiqueta (y): precio final. El modelo aprende una relación entre características y precio para estimar el valor de una vivienda nueva.

Guía práctica paso a paso (supervisado)

Paso 1: define la etiqueta. Especifica exactamente qué quieres predecir (clase o número) y cómo se mide.
Paso 2: reúne pares (X, y). Cada fila debe tener sus características y su etiqueta correcta.
Paso 3: separa datos. Crea un conjunto de entrenamiento y otro de prueba/validación para medir desempeño en datos no vistos.
Paso 4: elige una métrica. Clasificación: exactitud, precisión/recobrado; regresión: error absoluto medio, etc.
Paso 5: entrena y ajusta. Entrena el modelo y ajusta hiperparámetros si es necesario.
Paso 6: revisa errores. Observa en qué casos falla: ¿faltan variables?, ¿hay etiquetas inconsistentes?, ¿clases desbalanceadas?

Aprendizaje no supervisado: encontrar estructura sin respuestas

En el aprendizaje no supervisado no hay etiquetas. El objetivo es descubrir patrones en los datos: agrupar elementos similares, encontrar dimensiones latentes, o detectar casos raros que no se parecen al resto.

Agrupación (clustering): crear grupos “naturales”

La agrupación intenta formar clusters donde los elementos dentro de un grupo se parezcan más entre sí que con los de otros grupos. No “adivina” una etiqueta conocida; propone una estructura.

Ejemplo concreto 1: segmentación de clientes

Una tienda tiene datos de clientes: frecuencia de compra, gasto promedio, categorías preferidas, devoluciones. Sin etiquetas, puedes agrupar para descubrir segmentos como “compradores frecuentes de bajo ticket” o “compradores ocasionales de alto ticket”. Luego esos grupos se usan para campañas o recomendaciones.

Búsqueda de patrones: relaciones y representaciones

Además de agrupar, el no supervisado se usa para encontrar patrones como:

Reducción de dimensionalidad: resumir muchas variables en pocas “componentes” para visualizar o simplificar.
Detección de anomalías: identificar puntos que se alejan del comportamiento típico (posible fraude, fallos, sensores defectuosos).

Ejemplo concreto 2: detectar transacciones inusuales

Sin tener una etiqueta de “fraude confirmado”, puedes modelar qué es “normal” (montos, horarios, ubicaciones) y marcar como anomalías las transacciones que se salen mucho de ese patrón para revisión.

Guía práctica paso a paso (no supervisado)

Paso 1: define el objetivo exploratorio. ¿Quieres grupos interpretables, visualizar datos, o encontrar rarezas?
Paso 2: selecciona variables relevantes. Incluye características que representen el comportamiento que te interesa descubrir.
Paso 3: elige el método. Clustering para segmentos; reducción de dimensionalidad para visualización; anomalías para casos raros.
Paso 4: decide cómo evaluar. No hay “respuesta correcta”, así que evalúas con criterios como separación de grupos, estabilidad, utilidad para el negocio, o revisión humana.
Paso 5: interpreta y valida con expertos. Nombra clusters, revisa ejemplos típicos y atípicos, y comprueba si la estructura tiene sentido.

Aprendizaje por refuerzo: aprender a decidir con recompensas

En el aprendizaje por refuerzo (Reinforcement Learning), un agente interactúa con un entorno. En cada paso observa un estado, elige una acción y recibe una recompensa. El objetivo es aprender una estrategia (política) que maximice la recompensa acumulada a lo largo del tiempo.

La idea clave: consecuencias a corto y largo plazo

A diferencia del supervisado, aquí no te dan la respuesta correcta para cada situación. El agente aprende por prueba y error, equilibrando:

Exploración: probar acciones nuevas para descubrir mejores resultados.
Explotación: repetir acciones que ya sabe que funcionan.

Ejemplo concreto 1: un robot que aprende a moverse

Estado: sensores (distancia a obstáculos, inclinación). Acciones: avanzar, girar, frenar. Recompensa: positiva por avanzar sin chocar, negativa por colisiones. Con el tiempo aprende una política de navegación.

Ejemplo concreto 2: control de inventario

Estado: stock actual, demanda reciente, tiempos de reposición. Acciones: pedir cierta cantidad. Recompensa: ganancia por ventas menos costos de almacenamiento y penalización por quiebres de stock. El agente aprende a decidir cuánto reponer para maximizar beneficio a largo plazo.

Guía práctica paso a paso (por refuerzo)

Paso 1: define el entorno. Qué observa el agente (estado) y qué puede hacer (acciones).
Paso 2: diseña la recompensa. Debe reflejar el objetivo real; recompensas mal diseñadas generan comportamientos indeseados.
Paso 3: define episodios y límites. Cuándo termina una “partida” o ciclo (por tiempo, por objetivo, por fallo).
Paso 4: entrena en simulación si es posible. Reduce riesgos y costos antes de pasar al mundo real.
Paso 5: monitorea seguridad y desempeño. Revisa políticas aprendidas, casos extremos y estabilidad.

Cómo escoger el enfoque adecuado (criterios simples)

1) ¿Tienes etiquetas confiables?

Sí (y representan el resultado que quieres): usa supervisado.
No: considera no supervisado para descubrir estructura o por refuerzo si el problema es de decisiones secuenciales con recompensas.

2) ¿Tu objetivo es predecir una respuesta o descubrir patrones?

Predecir una clase/valor (spam, precio, churn): supervisado.
Descubrir segmentos, similitudes, anomalías, representaciones: no supervisado.

3) ¿El sistema toma decisiones que afectan el futuro?

Sí, hay una secuencia de decisiones y consecuencias (control, planificación, juegos, logística): por refuerzo.
No, cada predicción es independiente (o casi): normalmente supervisado o no supervisado.

4) ¿Cómo se mide el éxito?

Métrica directa comparando con una verdad conocida (etiquetas): supervisado.
Utilidad/interpretación (segmentos accionables, visualización clara, anomalías útiles): no supervisado.
Recompensa acumulada (beneficio total, tiempo, seguridad, eficiencia): por refuerzo.

Mini-ejercicios de decisión (rápidos)

Quieres predecir si un cliente cancelará y tienes historial con canceló/no canceló → supervisado.
Quieres agrupar productos para organizar un catálogo sin etiquetas previas → no supervisado.
Quieres que un sistema aprenda a asignar presupuesto diario de anuncios maximizando conversiones a lo largo del mes → por refuerzo (decisiones secuenciales con recompensa).

Ahora responde el ejercicio sobre el contenido:

¿En qué situación es más adecuado usar aprendizaje por refuerzo en lugar de supervisado o no supervisado?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

El aprendizaje por refuerzo se usa cuando hay una secuencia de decisiones con consecuencias a corto y largo plazo, y el sistema aprende por prueba y error mediante recompensas o castigos para maximizar la recompensa acumulada.