18,5. Rétropropagation et formation des réseaux de neurones : fonctions d'activation

L'algorithme de Backpropagation est essentiel pour entraîner les réseaux de neurones profonds (Deep Learning). Il permet au réseau d’ajuster efficacement ses pondérations internes, minimisant ainsi la différence entre les sorties prévues et les sorties réelles (l’erreur). Le processus de formation est itératif et consiste à calculer le gradient de la fonction de perte (ou coût) par rapport à chaque poids du réseau, ce qui se fait à l'aide de la règle de chaîne, en rétropropagant l'erreur de la dernière couche vers les couches initiales.

Comment fonctionne la rétropropagation

Le processus de rétropropagation peut être divisé en deux étapes principales :

Propagation directe : au cours de cette étape, les données d'entrée sont transmises à travers le réseau, couche par couche, jusqu'à ce qu'une sortie soit produite. Chaque neurone d'une couche reçoit des signaux d'entrée qui sont additionnés (combinant les poids associés), puis transmis via une fonction d'activation pour générer un signal de sortie.
Propagation vers l'arrière : Après avoir obtenu le résultat, la différence entre ce résultat et le résultat souhaité (l'erreur) est calculée. Cette erreur est ensuite propagée à travers le réseau, mettant à jour les poids de manière à minimiser l'erreur. Les poids sont mis à jour en utilisant le gradient de la fonction de perte par rapport aux poids, multiplié par un taux d'apprentissage.

Fonctions d'activation

Les fonctions d'activation jouent un rôle crucial dans la formation des réseaux de neurones, car ce sont elles qui introduisent la non-linéarité dans le modèle, permettant au réseau d'apprendre des relations complexes entre les données d'entrée et de sortie. Sans non-linéarité, le réseau serait équivalent à un modèle linéaire et ne pourrait pas résoudre des problèmes qui ne sont pas linéairement séparables.

Certaines des fonctions d'activation les plus courantes sont :

Sigmoïde : une fonction qui mappe n'importe quelle valeur d'entrée à une valeur comprise entre 0 et 1. Elle est utile pour générer des probabilités, mais est rarement utilisée dans les couches cachées en raison du problème de disparition du dégradé. li>
Tanh (tangente hyperbolique) : similaire à la fonction sigmoïde, mais mappe les valeurs d'entrée sur une plage comprise entre -1 et 1. Peut également souffrir du problème de disparition du gradient, mais est préférable à sigmoïde dans les couches cachées car les valeurs de sortie ont une moyenne nulle.
ReLU (Rectified Linear Unit) : Une fonction qui renvoie la valeur elle-même si elle est positive, et zéro sinon. Il s'agit de la fonction d'activation la plus utilisée dans les réseaux de neurones profonds en raison de son efficacité de calcul et du fait qu'elle atténue le problème de disparition du gradient.
Leaky ReLU : Une variante de ReLU qui permet un petit gradient lorsque la valeur est négative, empêchant ainsi les neurones de devenir "morts" pendant l'entraînement.
Softmax : généralement utilisée dans la dernière couche d'un réseau neuronal pour les tâches de classification, la fonction softmax transforme les logits (valeurs d'entrée brutes) en probabilités dont la somme est égale à 1.

Optimisation et ajustement du poids

Le processus d'optimisation lors de la formation d'un réseau neuronal est généralement effectué à l'aide d'un optimiseur basé sur le gradient tel que Gradient Descent ou ses variantes (Stochastic Gradient Descent, Mini-batch Gradient Descent, Adam, RMSprop, etc. .). L'objectif est de trouver l'ensemble de poids qui minimise la fonction de perte.

Le taux d'apprentissage est un hyperparamètre critique dans la formation des réseaux neuronaux. Un taux trop élevé peut amener l'algorithme à « sauter » le minimum global, tandis qu'un taux trop faible peut entraîner une convergence très lente ou rester bloqué aux minimums locaux.

Conclusion

La rétropropagation est l'épine dorsale de l'entraînement des réseaux neuronaux, permettant d'ajuster les pondérations du réseau afin de minimiser les erreurs de prédiction. Les fonctions d'activation sont des composants clés qui permettent au réseau de capturer la complexité et la non-linéarité des données. Un choix approprié de la fonction d'activation et une configuration minutieuse des hyperparamètres, tels que le taux d'apprentissage, sont essentiels au succès de la création de modèles de Machine Learning et de Deep Learning efficaces et précis.

Il est important de noter que le domaine du Deep Learning est en constante évolution et que de nouvelles techniques et approches sont régulièrement développées. Par conséquent, il est essentiel de rester à jour avec la dernière littérature et d'expérimenter différentes architectures et hyperparamètres pour trouver la meilleure solution à un problème spécifique.

Répondez maintenant à l’exercice sur le contenu :

Laquelle des affirmations suivantes concernant l’algorithme de rétropropagation et les fonctions d’activation dans les réseaux de neurones est correcte ?

Tu as raison! Félicitations, passez maintenant à la page suivante

Vous avez raté! Essayer à nouveau.

Page suivante de lebook gratuit :

18.5. Rétropropagation et formation des réseaux de neurones : fonctions d'activation