18.8. Rétropropagation et formation des réseaux de neurones : problèmes de disparition et d'explosion des gradients

L'algorithme de rétropropagation est une méthode fondamentale dans la formation des réseaux de neurones, en particulier dans les architectures d'apprentissage profond. Il permet de redistribuer l'erreur de sortie d'un réseau neuronal à travers le réseau, en mettant à jour les poids afin de minimiser cette erreur. Cependant, lors de la formation de réseaux neuronaux profonds, deux problèmes notables peuvent survenir : le gradient qui disparaît et le gradient qui explose. Ces problèmes peuvent entraver considérablement la formation efficace des modèles d'apprentissage profond.

Comprendre la rétropropagation

La rétropropagation est un mécanisme par lequel le gradient d'erreur est calculé pour chaque poids dans le réseau neuronal. Le processus commence par calculer l’erreur dans la sortie, puis propage cette erreur vers l’arrière à travers le réseau couche par couche, en mettant à jour les pondérations au fur et à mesure. La mise à jour est effectuée de telle manière que l'erreur devrait être réduite lors de la prochaine itération du processus de formation.

Le problème du dégradé qui disparaît

Le gradient de disparition se produit lorsque le gradient d'erreur diminue de façon exponentielle à mesure qu'il se propage vers l'arrière à travers les couches du réseau, devenant insignifiant lorsqu'il atteint les couches initiales. Cela signifie que les poids dans les premières couches du réseau neuronal sont à peine mis à jour pendant l'entraînement. En conséquence, ces couches apprennent très lentement, voire pas du tout, ce qui rend la formation inefficace et prolongée.

Ce problème est particulièrement répandu dans les réseaux de neurones comportant de nombreuses couches, utilisant des fonctions d'activation telles que sigmoïde ou tanh, qui saturent aux deux extrémités de la fonction, produisant de très petits gradients lors de la rétropropagation.

Le problème du dégradé explosif

Le dégradé explosif est l'opposé du dégradé qui disparaît. Ici, les gradients peuvent croître de façon exponentielle lors de la rétropropagation, devenant ainsi très importants. Cela peut entraîner des changements de poids trop importants, provoquant une instabilité dans le processus d’entraînement. Les pondérations peuvent fluctuer, diverger ou même exploser, conduisant à un modèle qui ne converge pas ou qui apprend des modèles qui ne sont pas représentatifs des données.

Les réseaux de neurones avec des architectures profondes ou avec des initialisations de poids inappropriées sont particulièrement sensibles à ce problème, en particulier lorsque des fonctions d'activation qui ne limitent pas la sortie sont utilisées.

Stratégies d'atténuation

Pour lutter contre la disparition et l'explosion des gradients, plusieurs stratégies ont été développées :

  • Initialisation minutieuse des poids : les méthodes d'initialisation des poids, telles que l'initialisation He ou Glorot (également connu sous le nom de Xavier), peuvent aider à éviter les problèmes de gradient de disparition et d'explosion lors de la définition initiale de l'échelle des poids. li>
  • Fonctions d'activation non saturables : l'utilisation de fonctions d'activation telles que ReLU (Rectified Linear Unit) ou ses variantes (par exemple, Leaky ReLU, Parametric ReLU) peut aider à atténuer le problème de disparition du gradient, comme celles-ci le font. ne sature pas de la même manière que le sigmoïde ou le tanh.
  • Régularisation du dégradé : des techniques telles que l'écrêtage du dégradé peuvent être utilisées pour éviter l'explosion du dégradé en limitant la valeur du dégradé lors de la rétropropagation.
  • Normalisation par lots : normaliser les entrées de chaque couche pour avoir une moyenne de zéro et un écart type de un peut réduire le problème du gradient de disparition, rendant l'optimisation plus stable.
  • Architectures de réseau spécialisées : les réseaux de neurones tels que LSTM (Long Short-Term Memory) ou GRU (Gated Recurrent Unit) ont été conçus pour gérer le gradient de disparition des tâches séquentielles telles que le traitement naturel du langage. .

Conclusion

L'entraînement efficace des réseaux neuronaux profonds est un défi en raison des problèmes de gradient de disparition et d'explosion. Ces problèmes peuvent retarder, voire empêcher un réseau neuronal d’apprendre correctement. Heureusement, avec une compréhension claire de la manière dont ces problèmes surviennent et l’utilisation de stratégies d’atténuation appropriées, il est possible de former avec succès des réseaux neuronaux profonds. Un choix judicieux des fonctions d'activation, des méthodes d'initialisation des poids, des techniques de normalisation et des architectures de réseau est essentiel pour surmonter ces obstacles et obtenir des modèles d'apprentissage profond robustes et efficaces.

À mesure que la recherche sur l'apprentissage profond progresse, de nouvelles techniques et approches continuent d'être développées pour résoudre ces problèmes, rendant la formation sur les réseaux neuronaux plus accessible et plus efficace. Il est donc essentiel que les professionnels travaillant dans le domaine du machine learning et du deep learning se tiennent au courant des meilleures pratiques etdes innovations dans le domaine pour assurer le succès de vos projets.

Répondez maintenant à l’exercice sur le contenu :

Laquelle des stratégies suivantes n'est PAS mentionnée dans le texte comme moyen d'atténuer les problèmes de gradient de disparition et d'explosion lors de la formation des réseaux de neurones ?

Tu as raison! Félicitations, passez maintenant à la page suivante

Vous avez raté! Essayer à nouveau.

Image de l'article Rétropropagation et formation sur les réseaux neuronaux : initialisation des poids 55

Page suivante de lebook gratuit :

Rétropropagation et formation sur les réseaux neuronaux : initialisation des poids

Temps de lecture estimé : 0 minutes

Téléchargez l'application pour obtenir une certification gratuite et écouter des cours en arrière-plan, même avec l'écran éteint.

+ 9 millions
d'étudiants

Certificat gratuit et
valide avec QR Code

60 mille exercices
gratuits

Note de 4,8/5 dans les
magasins d'applications

Cours vidéo et livres
audio gratuits