18.13. Retropropagación y entrenamiento de redes neuronales: sobreajuste y desajuste

La retropropagación es un algoritmo fundamental en el entrenamiento de redes neuronales, especialmente cuando se trata de aprendizaje profundo. Es responsable de ajustar los pesos de una red neuronal para minimizar la diferencia entre los resultados predichos y los resultados esperados (etiquetas de entrenamiento). Este proceso se realiza calculando el gradiente de la función de pérdida con respecto a cada peso en la red, lo que permite una actualización eficiente de los pesos en la dirección que reduce el error.

¿Cómo funciona la retropropagación?

El algoritmo de retropropagación funciona en dos pasos principales: propagación hacia adelante (paso hacia adelante) y propagación hacia atrás (paso hacia atrás). Durante la propagación directa, los datos de entrada pasan a través de la red para generar una salida. En el paso de propagación hacia atrás, el gradiente de la función de pérdida se calcula y se propaga de regreso a través de la red, actualizando los pesos según sea necesario.

La función de pérdida, también conocida como función de costo, mide qué tan bien la red neuronal está realizando su tarea. Una función de pérdida común es la entropía cruzada para problemas de clasificación y el error cuadrático medio para problemas de regresión. El objetivo del entrenamiento es minimizar esta función de pérdida.

Desafíos del entrenamiento: sobreajuste y desajuste

Durante el entrenamiento de una red neuronal, podemos encontrarnos con dos problemas principales: sobreajuste y desajuste.

Sobreajuste

El sobreajuste se produce cuando la red neuronal aprende tan bien el conjunto de datos de entrenamiento que no puede generalizarlos a nuevos datos. Esto suele ocurrir cuando la red tiene demasiados parámetros (es demasiado compleja) en relación con la cantidad de datos de entrenamiento disponibles. Como resultado, la red puede capturar ruido o patrones aleatorios que no son representativos del proceso general que se está modelando.

Para combatir el sobreajuste se pueden aplicar varias técnicas:

  • Regularización: agrega un término de penalización a la función de pérdida para desalentar pesos grandes y complejos en la red.
  • Abandono: durante el entrenamiento, algunas neuronas se eliminan aleatoriamente, lo que ayuda a que la red se vuelva menos sensible a pesos específicos.
  • Detención anticipada: el entrenamiento se detiene antes de que la red tenga la oportunidad de sobreajustar los datos de entrenamiento.
  • Aumento de datos: aumenta el conjunto de datos de entrenamiento con datos modificados, lo que puede ayudar a la red a aprender características más generalizables.
  • Validación cruzada: utiliza diferentes particiones del conjunto de datos para entrenar y validar el modelo, lo que ayuda a garantizar que el modelo se generalice bien a nuevos datos.

Subadaptación

Por otro lado, el desajuste se produce cuando la red neuronal es demasiado simple para capturar la complejidad de los datos. Esto significa que la red no aprende ni siquiera los patrones básicos de los datos de entrenamiento, lo que resulta en un rendimiento deficiente tanto en el conjunto de entrenamiento como en el de prueba.

Para resolver el desajuste, podemos:

  • Aumentar la complejidad de la red: agregar más capas o neuronas puede ayudar a que la red capture patrones más complejos.
  • Ampliar el tiempo de entrenamiento: permitir que la red se entrene por más tiempo puede ayudarla a aprender mejor los patrones en los datos.
  • Optimizar hiperparámetros: ajustar los hiperparámetros, como la tasa de aprendizaje y el tamaño del lote, puede mejorar el proceso de aprendizaje.
  • Enriquezca los datos de capacitación: agregar más datos o recursos puede brindarle a la red más información de la cual aprender.

Conclusión

La retropropagación es una pieza central en el entrenamiento de redes neuronales, ya que les permite aprender de los datos de manera eficiente. Sin embargo, es fundamental estar consciente de los problemas de sobreajuste y desajuste, que pueden comprometer la capacidad de la red para generalizar nuevos datos. Mediante el uso de técnicas como regularización, abandono, detención anticipada, aumento de datos y validación cruzada, podemos mitigar el riesgo de sobreajuste. De manera similar, para evitar un ajuste insuficiente, podemos aumentar la complejidad de la red, extender el tiempo de entrenamiento, optimizar los hiperparámetros y enriquecer los datos de entrenamiento. Con estas estrategias en mente, es posible entrenar redes neuronales que no solo se ajusten bien a los datos de entrenamiento, sino que también mantengan un alto rendimiento con datos nunca antes vistos.

Ahora responde el ejercicio sobre el contenido:

¿Cuál de las siguientes técnicas NO es recomendable para combatir el sobreajuste en redes neuronales?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

Imagen del artículo Retropropagación y entrenamiento de redes neuronales: validación cruzada

Siguiente página del libro electrónico gratuito:

60Retropropagación y entrenamiento de redes neuronales: validación cruzada

4 minutos

¡Obtén tu certificado para este curso gratis! descargando la aplicación Cursa y leyendo el libro electrónico allí. ¡Disponible en Google Play o App Store!

Disponible en Google Play Disponible en App Store

+ 6,5 millones
estudiantes

Certificado gratuito y
válido con código QR

48 mil ejercicios
gratis

Calificación de 4.8/5
en tiendas de aplicaciones

Cursos gratuitos de
vídeo, audio y texto.