18h18. Rétropropagation et formation des réseaux de neurones : mémoire à long terme (LSTM) et unité récurrente fermée (GRU)

La rétropropagation est au cœur de l'entraînement des réseaux de neurones, y compris les réseaux de neurones récurrents (RNN) qui constituent la base de modèles plus complexes tels que la mémoire à long terme (LSTM) et l'unité récurrente fermée (GRU). Ce processus implique de propager l'erreur de sortie à travers le réseau en ajustant les poids synaptiques pour minimiser la fonction de perte. Dans ce chapitre, nous explorerons comment la rétropropagation est appliquée au LSTM et au GRU, deux des types de RNN les plus puissants et les plus populaires.

Comprendre la rétropropagation

La rétropropagation dans les réseaux de neurones est analogue à l'apprentissage humain. Lorsque nous commettons une erreur, nous essayons de comprendre où nous nous sommes trompés et d’ajuster notre comportement pour nous améliorer à l’avenir. Dans les réseaux de neurones, le « comportement » est ajusté en modifiant les poids des connexions entre les neurones.

En pratique, la rétropropagation commence par le calcul du gradient de la fonction de perte par rapport à chaque poids du réseau. Ce gradient indique le sens dans lequel l'erreur est la plus sensible par rapport à chaque poids. Les poids sont ensuite ajustés dans le sens opposé à la pente, ce qui réduit l'erreur. La taille du pas pour ajuster les poids est déterminée par le taux d'apprentissage.

Mémoire longue à court terme (LSTM)

Les LSTM sont une extension des RNN traditionnels, conçus pour résoudre le problème d'évanouissement du gradient en permettant au réseau d'apprendre les dépendances à long terme. Les LSTM ont une structure cellulaire complexe avec trois portes : oubli, entrée et sortie.

  • Forget Gate : décide quelles informations seront supprimées de l'état de la cellule.
  • Input Gate : met à jour l'état de la cellule avec de nouvelles informations.
  • Porte de sortie : décide quelle sera la sortie en fonction de l'état de la cellule et de l'entrée actuelle.

Ces portes permettent au LSTM d'ajouter ou de supprimer des informations de l'état de la cellule, qui est une forme de mémoire qui transporte des informations le long de séquences de données.

Unité récurrente fermée (GRU)

Les GRU sont une variante plus simple des LSTM. Ils combinent la porte d'oubli et la porte d'entrée en une seule « porte de mise à jour ». De plus, ils disposent d'une « porte de réinitialisation » qui décide dans quelle mesure l'état précédent sera combiné avec la nouvelle entrée. Les GRU sont généralement plus rapides à former que les LSTM en raison de leur simplicité et ont des performances comparables sur de nombreuses tâches.

Rétropropagation dans le temps (BPTT)

Pour entraîner les RNN, nous utilisons une technique appelée rétropropagation dans le temps (BPTT). BPTT consiste à dérouler le réseau dans le temps et à appliquer une rétropropagation à chaque pas de temps. Cela permet à l'algorithme d'apprendre quelles actions au cours des pas de temps précédents ont conduit à l'erreur actuelle.

Dans les LSTM et les GRU, le BPTT est plus complexe en raison de la présence de portes et d'états de cellules. Cependant, l'idée de base reste la même : calculer les gradients de la fonction de perte par rapport à chaque poids et les ajuster pour minimiser l'erreur.

Défis de formation RNN

La formation des RNN, y compris les LSTM et les GRU, présente plusieurs défis. Des gradients de décoloration et d'explosion peuvent toujours se produire malgré les améliorations qu'offrent les LSTM et les GRU. De plus, la formation des RNN nécessite beaucoup de calculs car elle nécessite la prise en compte de longues séquences de données.

Pour faire face à ces défis, plusieurs techniques sont utilisées, telles que :

  • Dégradé : limite la valeur des dégradés pour éviter qu'ils n'explosent.
  • Régularisation : inclut des techniques telles que l'abandon et L1/L2 pour éviter le surapprentissage.
  • Optimiseurs avancés : comme Adam et RMSprop, qui ajustent le taux d'apprentissage pendant l'entraînement.

Considérations finales

La rétropropagation est l'épine dorsale de la formation des réseaux neuronaux, et son application dans les LSTM et les GRU est fondamentale pour faire progresser l'apprentissage automatique dans les tâches impliquant des données séquentielles. Malgré les défis, les techniques d'optimisation et de régularisation continuent d'évoluer, rendant la formation de ces modèles plus efficace et efficiente.

Pour ceux qui souhaitent approfondir leur connaissance du machine learning et du deep learning avec Python, il est essentiel de comprendre la rétropropagation, les LSTM et les GRU. La mise en pratique de ces concepts dans des projets réels et l'utilisation de bibliothèques telles que TensorFlow et Keras peuvent aider à consolider les connaissances et à développer de précieuses compétences pratiques dans le domaine.

Répondez maintenant à l’exercice sur le contenu :

Laquelle des affirmations suivantes concernant la mémoire à long terme (LSTM) et l'unité récurrente fermée (GRU) est vraie, d'après le texte fourni ?

Tu as raison! Félicitations, passez maintenant à la page suivante

Vous avez raté! Essayer à nouveau.

Image de l'article Rétropropagation et formation des réseaux de neurones : frameworks d'apprentissage profond (TensorFlow, PyTorch, Keras)

Page suivante de lebook gratuit :

65Rétropropagation et formation des réseaux de neurones : frameworks d'apprentissage profond (TensorFlow, PyTorch, Keras)

0 minutes

Obtenez votre certificat pour ce cours gratuitement ! en téléchargeant lapplication Cursa et en lisant lebook qui sy trouve. Disponible sur Google Play ou App Store !

Get it on Google Play Get it on App Store

+ 6,5 millions
d'étudiants

Certificat gratuit et
valide avec QR Code

48 mille exercices
gratuits

Note de 4,8/5 dans les
magasins d'applications

Cours gratuits en
vidéo, audio et texte