7.2 Principes de l'apprentissage supervisé : ensembles de données : formation et tests
L'apprentissage supervisé est l'un des piliers fondamentaux du machine learning, dans lequel un algorithme apprend à partir d'exemples étiquetés pour faire des prédictions ou prendre des décisions. Le processus de formation d'un modèle d'apprentissage supervisé dépend fortement de la qualité et de la division des ensembles de données en formation et tests. Explorons ces concepts plus en détail.
Qu'est-ce que l'apprentissage supervisé ?
Dans l'apprentissage supervisé, nous travaillons avec un ensemble de données qui comprend des entrées (caractéristiques ou caractéristiques) et des sorties souhaitées (étiquettes ou valeurs vraies). L'objectif est de créer un modèle capable d'apprendre la relation entre les entrées et les sorties à partir de ces exemples étiquetés, afin de pouvoir prédire la sortie de nouvelles données inédites.
Ensembles de données de formation et de test
Pour entraîner et évaluer efficacement un modèle, nous divisons l'ensemble de données en deux groupes distincts : un ensemble d'entraînement et un ensemble de test. L'ensemble de formation est utilisé pour enseigner le modèle, tandis que l'ensemble de test est utilisé pour évaluer ses performances et sa généralisation à des données invisibles.
Ensemble d'entraînement
L'ensemble d'entraînement est le plus grand sous-ensemble de l'ensemble de données et est utilisé pour ajuster les paramètres du modèle d'apprentissage automatique. Pendant la phase de formation, l'algorithme tente d'apprendre des modèles dans les données de formation qui peuvent être généralisés à de nouvelles données. La taille de cet ensemble varie généralement entre 60 % et 80 % de l'ensemble de données total, mais cette proportion peut varier en fonction de la taille de l'ensemble de données et de la complexité du problème.
Ensemble de tests
L'ensemble de test, en revanche, est un sous-ensemble distinct qui n'est pas utilisé pendant la formation. Il est utilisé exclusivement pour évaluer les performances du modèle après l'entraînement. L'ensemble de tests fournit une estimation impartiale des performances du modèle sur des données invisibles. Il représente généralement entre 20 % et 40 % de l'ensemble de données total.
Division des données
La division des données en ensembles de formation et de test doit être effectuée avec soin pour garantir que les deux représentent bien la distribution générale des données. Une division incorrecte peut conduire à un modèle qui ne généralise pas bien, appelé surajustement (lorsque le modèle apprend trop de détails et de bruit de l'ensemble d'apprentissage) ou sous-ajustement (lorsque le modèle est trop simple et n'apprend pas la structure des données). .< /p>
Techniques de division
Il existe plusieurs techniques pour diviser les données, la plus simple étant la division aléatoire. Cependant, des méthodes plus sophistiquées telles que la validation croisée sont souvent utilisées pour garantir que chaque observation de l'ensemble de données a une chance d'apparaître dans les ensembles de formation et de test. La validation croisée K fois est un exemple courant, dans lequel l'ensemble de données est divisé en K sous-ensembles d'approximativement la même taille, et le modèle est entraîné et testé K fois, à chaque fois avec un sous-ensemble différent comme ensemble de test. p>
Importance de la représentativité
Il est essentiel que les ensembles de formation et de test soient représentatifs de la distribution globale des données. Cela signifie qu'ils doivent contenir un mélange similaire d'exemples de toutes les classes ou sorties. Dans certains cas, il peut être nécessaire de stratifier la répartition, en garantissant que la proportion de classes dans chaque ensemble est la même que la proportion dans l'ensemble de données complet.
Défis liés aux données déséquilibrées
Lorsque nous traitons d'ensembles de données déséquilibrés, où certains cours sont beaucoup plus fréquents que d'autres, la division entre la formation et les tests devient plus difficile. Dans ces cas, des techniques spéciales telles que le suréchantillonnage, le sous-échantillonnage ou la génération de données synthétiques peuvent être nécessaires pour garantir que le modèle n'est pas biaisé en faveur des classes les plus fréquentes.
Conclusion
Les ensembles de données de formation et de test sont fondamentaux dans l'apprentissage supervisé. Une bonne répartition entre la formation et les tests est essentielle pour développer des modèles qui non seulement s'adaptent bien aux données de formation, mais qui se généralisent également bien aux nouvelles données. En appliquant des techniques de fractionnement des données et en tenant compte de la représentativité et de l'équilibre des classes, nous pouvons créer des modèles d'apprentissage automatique robustes et fiables.
En résumé, comprendre et appliquer soigneusement les principes d'apprentissage supervisé et les techniques de découpage des données sont essentiels au succès de tout projet d'apprentissage automatique et d'apprentissage profond avec Python.