7.5 Principes de l'apprentissage supervisé : indicateurs d'évaluation des performances
L'apprentissage supervisé est l'une des approches les plus courantes dans le domaine de l'apprentissage automatique (ML), dans laquelle un modèle est entraîné sur un ensemble de données comprenant les entrées et sorties souhaitées. L’objectif est que le modèle apprenne à mapper les entrées aux sorties correctes. Pour évaluer l'efficacité d'un modèle d'apprentissage supervisé, plusieurs mesures de performance sont utilisées. Ces métriques fournissent un aperçu de l'efficacité du modèle dans l'exécution de ses tâches et sont essentielles pour guider le processus d'optimisation et de validation.
Précision
La précision est l'une des mesures les plus intuitives et les plus courantes. Elle est définie comme la proportion de prédictions correctes par rapport au total des prédictions faites par le modèle. Bien qu'il soit facile à comprendre et à appliquer, sa précision peut être trompeuse dans des ensembles de données déséquilibrés, où une classe est beaucoup plus fréquente que les autres.
Précision et rappel
La précision est la proportion de prédictions positives correctes par rapport au total des prédictions positives faites par le modèle. Le rappel, également appelé sensibilité ou taux de vrais positifs, est la proportion de vrais positifs qui ont été correctement identifiés par le modèle. Ces deux mesures sont particulièrement utiles lorsque les coûts des faux positifs et des faux négatifs sont très différents.
Score F1
Le score F1 est la moyenne harmonique entre précision et rappel. C'est utile lorsque vous avez besoin d'un équilibre entre précision et rappel et qu'il y a une répartition inégale des cours. Le score F1 est particulièrement important dans les situations où les faux négatifs et les faux positifs ont des conséquences très différentes.
Aire sous la courbe ROC (AUC-ROC)
La courbe ROC (Receiver Operating Characteristic) est un graphique qui montre les performances d'un modèle de classification sur tous les seuils de classification. L'AUC (Area Under the Curve) représente la probabilité qu'un modèle classe un exemple aléatoire positif plus haut qu'un exemple aléatoire négatif. AUC-ROC est une métrique robuste car elle est insensible à la distribution des classes.
Indice de Gini
L'indice Gini est une autre mesure dérivée de la courbe ROC. Elle est calculée comme étant le double de l'aire entre la courbe ROC et la ligne de diagnostic (qui représente un classificateur aléatoire). L'indice de Gini est une mesure de la capacité du modèle à faire la distinction entre les classes positives et négatives.
Perte de journal
La perte de log, ou perte logarithmique, mesure les performances d'un modèle de classification dans lequel le résultat prédit est une probabilité comprise entre 0 et 1. La punition pour les prédictions incorrectes augmente de façon exponentielle à mesure que la probabilité prédite s'écarte de la véritable étiquette de classe. La perte de journal est une mesure importante lorsque vous avez besoin d'une mesure de performances qui prend en compte l'incertitude des prévisions.
Erreur quadratique moyenne (MSE) et erreur quadratique moyenne (RMSE)
Pour les problèmes de régression, MSE mesure l'erreur quadratique moyenne, c'est-à-dire la moyenne quadratique des différences entre les valeurs prédites et réelles. Le RMSE est simplement la racine carrée du MSE et présente l’avantage d’être dans la même unité que la variable de réponse. Ces deux mesures sont cruciales pour évaluer les performances des modèles de régression.
Erreur absolue moyenne (MAE)
MAE mesure la moyenne des valeurs absolues des erreurs. Contrairement à MSE ou RMSE, MAE ne pénalise pas autant les erreurs importantes, ce qui peut être souhaitable dans certains contextes où les valeurs aberrantes ne devraient pas avoir un impact important sur la métrique de performance.
Considérations finales
Lors du choix de la mesure d'évaluation des performances, il est important de prendre en compte le contexte du problème et ce qui est le plus important pour l'application en question. Par exemple, dans un système de détection de fraude, un rappel élevé peut être plus souhaitable qu'une haute précision, car il est préférable de signaler les transactions légitimes comme frauduleuses (faux positifs) plutôt que de manquer des transactions frauduleuses (faux négatifs).
De plus, il est courant d'utiliser un ensemble de métriques plutôt que de s'appuyer sur une seule métrique pour obtenir une vue plus globale des performances du modèle. L'évaluation et la compréhension continues des métriques sont essentielles au développement et à l'amélioration des modèles de Machine Learning et de Deep Learning.
Enfin, il est important de souligner que même si certaines métriques peuvent être facilement calculées à l'aide de bibliothèques de ML telles que scikit-learn en Python, l'interprétation des métriques et la décision des actions à entreprendre en fonction de ces informations nécessitent une compréhension approfondie des deux modèles. et domaine d'application.