21. Modèles d'apprentissage profond pour la vision par ordinateur
La vision par ordinateur est un domaine de l'intelligence artificielle qui apprend aux machines à interpréter et à comprendre le monde visuel. Avec l’avènement du deep learning, la capacité des machines à reconnaître des modèles et des images a progressé de façon exponentielle. Les modèles d'apprentissage profond, en particulier les réseaux de neurones convolutifs (CNN), sont devenus l'épine dorsale des systèmes de vision par ordinateur modernes. Dans ce chapitre, nous explorerons les modèles d'apprentissage profond les plus influents et la manière dont ils sont appliqués en vision par ordinateur.
Réseaux de neurones convolutifs (CNN)
Les CNN sont une classe de réseaux neuronaux profonds particulièrement puissants pour traiter des données présentant une structure en grille, telles que des images. Un CNN typique est composé d'une série de couches qui transforment l'image d'entrée de manière à mettre en évidence les caractéristiques importantes pour la tâche de classification ou de détection.
Architectures fondamentales
Depuis l'introduction des CNN, plusieurs architectures se sont démarquées :
- LeNet-5 : l'un des premiers CNN conçus pour la reconnaissance des chiffres des chèques bancaires. Bien que simple par rapport aux architectures modernes, LeNet-5 a établi la norme pour les futurs réseaux convolutifs.
- AlexNet : c'est l'architecture qui a ravivé l'intérêt pour les réseaux de neurones dans le cadre du ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en 2012. Sa structure plus profonde et l'utilisation d'unités de rectification linéaire (ReLU) ont permis des progrès significatifs dans la précision de la classification des images.
- VGG : VGG a augmenté la profondeur du réseau en utilisant de nombreuses couches convolutives avec de petits filtres pour capturer des détails plus fins. VGG est connu pour sa simplicité et pour sa grande efficacité dans les tâches de reconnaissance d'images.
- GoogLeNet (Inception) : introduction du concept de modules de création, qui permettent au réseau d'apprendre des fonctionnalités à différentes échelles et d'améliorer l'efficacité des calculs.
- ResNet : introduction de blocs résiduels qui permettent la formation de réseaux beaucoup plus profonds grâce à l'apprentissage de référence résiduelle, résolvant ainsi le problème de l'évanouissement du gradient.
Transfert d'apprentissage
Une approche courante lors de l'application des CNN en vision par ordinateur consiste à utiliser l'apprentissage par transfert. Cela implique de prendre un réseau pré-entraîné sur un grand ensemble de données, comme ImageNet, et de l'adapter à un nouveau problème avec un ensemble de données plus petit. Cette méthode est efficace car les premières couches d'un CNN capturent des caractéristiques génériques (telles que les bords et les textures) qui sont utiles pour de nombreuses tâches de vision.
Modèles de détection d'objets
En plus de la classification des images, les CNN constituent la base des modèles de détection d'objets. Ces modèles identifient non seulement les objets dans une image, mais localisent également où ils sont présents. Certains des modèles les plus remarquables incluent :
- R-CNN : les régions dotées de fonctionnalités CNN (R-CNN) utilisent la recherche sélective pour trouver des régions candidates, puis appliquent un CNN à chacune d'elles pour classer l'objet présent.
- R-CNN rapide : améliore le R-CNN en utilisant un seul CNN pour l'ensemble de l'image, puis en extrayant les caractéristiques de chaque région candidate, ce qui accélère considérablement le processus.
- R-CNN plus rapide : présente le réseau de proposition de région (RPN), qui partage le calcul des caractéristiques avec le réseau de détection, ce qui rend le processus encore plus rapide.
- YOLO (You Only Look Once) : Il se différencie en étant extrêmement rapide, détectant les objets en temps réel. Il divise l'image en une grille et prédit simultanément des cadres de délimitation et des classes pour chaque cellule de la grille.
- SSD (Single Shot Multibox Detector) : Il combine les avantages de YOLO avec ceux de Faster R-CNN pour détecter des objets à différentes échelles et est rapide et précis.
Segmentation sémantique
La segmentation sémantique est une autre application de la vision par ordinateur où l'objectif est d'attribuer une étiquette de classe à chaque pixel de l'image. Des modèles tels que les réseaux entièrement convolutifs (FCN) et U-Net sont spécialement conçus pour cette tâche. Ils utilisent des couches convolutives pour comprendre le contexte et des couches déconvolutives ou des opérations de suréchantillonnage pour reconstruire l'image de sortie en pleine résolution.
Défis et considérations
Bien que les modèles d'apprentissage profond aient révolutionné la vision par ordinateur, ils ne sont pas sans défis :
- Exigences en matière de données : les modèles de Deep Learning nécessitent souvent de grandes quantités de données annotées, dont la collecte peut s'avérer coûteuse et longue.
- Intensité de calcul : la formation et l'inférence à l'aide de modèles d'apprentissage profond peuvent nécessiter beaucoup de calculs, nécessitant du matériel spécialisé tel que des GPU ou des TPU.
- Généralisation : les modèles peuvent souffrir d'un surapprentissage, c'est-à-dire qu'ils fonctionnent bien sur les données d'entraînement, mais ne parviennent pas à se généraliser à de nouvelles données. Des techniques telles que l'augmentation des données, la régularisation et la normalisation par lots sont utilisées pour lutter contre ce problème.
- Interprétabilité : les modèles d'apprentissage profond sont souvent considérés comme des « boîtes noires » en raison de la difficulté de comprendre comment ils arrivent à prendre leurs décisions.
Conclusion
Les modèles d'apprentissage profond ont transformé la vision par ordinateur, permettant des avancées dans des tâches telles que la classification d'images, la détection d'objets et la segmentation sémantique. Bien que les CNN soient à la base de bon nombre de ces avancées, l’innovation continue dans les architectures et les techniques de formation est essentielle pour surmonter les défis actuels. Avec la disponibilité croissante des données et de la puissance de calcul, l'avenir de la vision par ordinateur avec apprentissage profond est prometteur et continuera de repousser les limites de ce que les machines peuvent voir et comprendre.