7.7 Principes de l'apprentissage supervisé : surapprentissage et sous-apprentissage
L'apprentissage supervisé est l'un des piliers fondamentaux du machine learning (ML), dans lequel l'algorithme apprend à partir de données étiquetées pour effectuer des prédictions ou des classifications. Cependant, deux des principaux défis qui se posent lors de la formation de modèles d’apprentissage supervisé sont le surapprentissage et le sous-apprentissage. Ces concepts sont cruciaux pour développer des modèles efficaces et fiables.
Qu'est-ce que le surapprentissage ?
Le surajustement se produit lorsqu'un modèle de ML apprend les détails et le bruit des données d'entraînement à un point tel qu'il devient trop complexe et finit par avoir de mauvaises performances sur de nouvelles données inédites. Cela signifie que le modèle a surajusté les données d'entraînement, capturant des modèles qui ne sont pas généralisables à d'autres ensembles de données.
Causes du surapprentissage
- Complexité du modèle : les modèles comportant de nombreux paramètres, tels que les réseaux neuronaux profonds, sont particulièrement sujets au surapprentissage, car ils ont la capacité d'apprendre des modèles très spécifiques dans les données d'entraînement.
- Peu de données : disposer d'un petit ensemble de données d'entraînement peut conduire à un modèle qui ne dispose pas de suffisamment de données pour apprendre des modèles véritablement généralisables.
- Bruit dans les données : si les données d'entraînement contiennent beaucoup de bruit, le modèle peut finir par apprendre ce bruit comme s'il s'agissait de caractéristiques significatives.
Comment éviter le surapprentissage
- Régularisation : des techniques telles que L1 et L2 ajoutent un terme de pénalité à la fonction de coût du modèle pour décourager une complexité excessive.
- Validation croisée : l'utilisation de la validation croisée vous permet d'évaluer la façon dont le modèle se généralise à un ensemble de données indépendant pendant l'entraînement.
- Élaguer le modèle : réduisez la complexité du modèle en supprimant des couches ou des neurones dans les réseaux de neurones, ou en choisissant des modèles plus simples.
- Arrêt anticipé : arrêtez l'entraînement dès que les performances sur un ensemble de données de validation commencent à se détériorer.
- Augmentation des données : créez artificiellement de nouvelles données d'entraînement grâce à des techniques telles que la rotation, le déplacement ou la mise en miroir d'images.
Qu'est-ce que le sous-ajustement ?
Le sous-apprentissage est l'opposé du surapprentissage et se produit lorsqu'un modèle est trop simple pour capturer la complexité des données. Par conséquent, le modèle n'apprend pas suffisamment bien les modèles sous-jacents dans les données d'entraînement, ce qui entraîne de mauvaises performances sur les données d'entraînement et de test.
Causes du sous-ajustement
- Modèle trop simple : modèle avec peu de paramètres ou qui n'est pas suffisamment complexe pour capturer la structure des données.
- Fonctionnalités inadéquates : utilisation d'un ensemble de fonctionnalités qui ne capturent pas les informations importantes des données.
- Formation insuffisante : arrêter la formation trop tôt avant que le modèle n'ait eu la possibilité d'apprendre correctement à partir des données.
Comment éviter le sous-ajustement
- Augmenter la complexité du modèle : le choix d'un modèle plus complexe ou l'ajout de paramètres supplémentaires peut aider à mieux capturer la structure des données.
- Ingénierie des fonctionnalités : créez de nouvelles fonctionnalités ou transformez celles existantes pour mieux représenter les informations contenues dans les données.
- Plus de formation : permettre au modèle de s'entraîner plus longtemps peut l'aider à apprendre des modèles dans les données d'entraînement.
Équilibrer le surapprentissage et le sous-apprentissage
Trouver le bon équilibre entre éviter le surapprentissage et le sous-apprentissage est à la fois un art et une science. L'objectif est d'atteindre un bon compromis entre la capacité du modèle à généraliser à de nouvelles données (en évitant le surajustement) et sa capacité à capturer suffisamment d'informations à partir des données d'entraînement (en évitant le sous-ajustement). Ceci est souvent réalisé grâce à l'expérimentation et à l'ajustement des hyperparamètres du modèle.
En résumé, comprendre et atténuer le surapprentissage et le sous-apprentissage est essentiel pour créer des modèles de machine learning robustes et fiables. En appliquant des techniques telles que la régularisation, la validation croisée et l'ingénierie des fonctionnalités, nous pouvons améliorer considérablement la capacité d'un modèle à faire des prédictions précises sur des données nouvelles et inconnues.