21. Modelos de aprendizaje profundo para visión por computadora

La visión por computadora es un campo de la inteligencia artificial que enseña a las máquinas a interpretar y comprender el mundo visual. Con la llegada del aprendizaje profundo, la capacidad de las máquinas para reconocer patrones e imágenes ha avanzado exponencialmente. Los modelos de aprendizaje profundo, especialmente las redes neuronales convolucionales (CNN), se han convertido en la columna vertebral de los sistemas modernos de visión por computadora. En este capítulo, exploraremos los modelos de aprendizaje profundo más influyentes y cómo se aplican en la visión por computadora.

Redes neuronales convolucionales (CNN)

Las CNN son una clase de redes neuronales profundas que son especialmente poderosas para procesar datos que tienen una estructura de cuadrícula, como imágenes. Una CNN típica se compone de una serie de capas que transforman la imagen de entrada de manera que resaltan características importantes para la tarea de clasificación o detección.

Arquitecturas Fundamentales

Desde la introducción de las CNN, se han destacado varias arquitecturas:

  • LeNet-5: Una de las primeras CNN diseñadas para el reconocimiento de dígitos en cheques bancarios. Aunque es simple en comparación con las arquitecturas modernas, LeNet-5 estableció el estándar para las futuras redes convolucionales.
  • AlexNet: fue la arquitectura que revitalizó el interés en las redes neuronales en el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en 2012. Su estructura más profunda y el uso de unidades de rectificación lineal (ReLU) han permitido avances significativos en la precisión de la clasificación de imágenes.
  • VGG: VGG aumentó la profundidad de la red mediante el uso de muchas capas convolucionales con pequeños filtros para capturar detalles más finos. VGG se caracteriza por su sencillez y por ser muy eficaz en tareas de reconocimiento de imágenes.
  • GoogLeNet (Inception): introdujo el concepto de módulos iniciales, que permiten a la red aprender funciones en varias escalas y mejorar la eficiencia computacional.
  • ResNet: se introdujeron bloques residuales que permiten el entrenamiento de redes mucho más profundas a través del aprendizaje de referencia residual, resolviendo el problema del desvanecimiento del gradiente.

Transferencia de aprendizaje

Un enfoque común al aplicar CNN en visión por computadora es utilizar el aprendizaje por transferencia. Esto implica tomar una red previamente entrenada en un conjunto de datos grande, como ImageNet, y adaptarla a un nuevo problema con un conjunto de datos más pequeño. Este método es eficaz porque las primeras capas de una CNN capturan características genéricas (como bordes y texturas) que son útiles para muchas tareas de visión.

Modelos de detección de objetos

Además de la clasificación de imágenes, las CNN son la base de los modelos de detección de objetos. Estos modelos no sólo identifican objetos en una imagen, sino que también localizan dónde están presentes. Algunos de los modelos más destacados incluyen:

  • R-CNN: Regiones con características CNN (R-CNN) utiliza la búsqueda selectiva para encontrar regiones candidatas y luego aplica una CNN a cada una de ellas para clasificar el objeto presente.
  • R-CNN rápido: mejora R-CNN mediante el uso de una única CNN para toda la imagen y luego extrae características para cada región candidata, lo que acelera significativamente el proceso.
  • R-CNN más rápido: presenta la red de propuesta regional (RPN), que comparte el cálculo de características con la red de detección, lo que hace que el proceso sea aún más rápido.
  • YOLO (Sólo Miras Una Vez): Se diferencia por ser extremadamente rápido, detectando objetos en tiempo real. Divide la imagen en una cuadrícula y predice cuadros delimitadores y clases para cada celda de la cuadrícula simultáneamente.
  • SSD (Detector multibox de disparo único): Combina las ventajas de YOLO con las de Faster R-CNN para detectar objetos a varias escalas y es rápido y preciso.

Segmentación semántica

La segmentación semántica es otra aplicación de la visión por computadora donde el objetivo es asignar una etiqueta de clase a cada píxel de la imagen. Modelos como redes totalmente convolucionales (FCN) y U-Net están diseñados específicamente para esta tarea. Utilizan capas convolucionales para comprender el contexto y capas deconvolucionales u operaciones de muestreo ascendente para reconstruir la imagen de salida en resolución completa.

Desafíos y consideraciones

Si bien los modelos de aprendizaje profundo han revolucionado la visión por computadora, no están exentos de desafíos:

  • Requisitos de datos: los modelos de aprendizaje profundo a menudo requieren grandes cantidades de datos anotados, cuya recopilación puede resultar costosa y llevar mucho tiempo.
  • Intensidad computacional: entrenar e inferir usando modelos de aprendizaje profundo puede ser computacionalmente intensivo y requerir hardware especializado como GPU o TPU.
  • Generalización: los modelos pueden sufrir un sobreajuste, donde funcionan bien con datos de entrenamiento pero no logran generalizar a datos nuevos. Para combatir esto se utilizan técnicas como el aumento de datos, la regularización y la normalización por lotes.
  • Interpretabilidad: Los modelos de aprendizaje profundo a menudo se consideran "cajas negras" debido a la dificultad de comprender cómo llegan a sus decisiones.

Conclusión

Los modelos de aprendizaje profundo han transformado la visión por computadora, permitiendo avances en tareas como la clasificación de imágenes, la detección de objetos y la segmentación semántica. Si bien las CNN son la base de muchos de estos avances, la innovación continua en arquitecturas y técnicas de capacitación es esencial para superar los desafíos actuales. Con la creciente disponibilidad de datos y potencia informática, el futuro de la visión por computadora con aprendizaje profundo es prometedor y seguirá ampliando los límites de lo que las máquinas pueden ver y comprender.

Ahora responde el ejercicio sobre el contenido:

¿Cuál de las siguientes arquitecturas de redes neuronales convolucionales (CNN) fue la primera en diseñarse específicamente para reconocer dígitos en cheques bancarios y establecer el estándar para futuras redes convolucionales?

¡Tienes razón! Felicitaciones, ahora pasa a la página siguiente.

¡Tú error! Inténtalo de nuevo.

Imagen del artículo Redes neuronales convolucionales (CNN)

Siguiente página del libro electrónico gratuito:

83Redes neuronales convolucionales (CNN)

4 minutos

¡Obtén tu certificado para este curso gratis! descargando la aplicación Cursa y leyendo el libro electrónico allí. ¡Disponible en Google Play o App Store!

Disponible en Google Play Disponible en App Store

+ 6,5 millones
estudiantes

Certificado gratuito y
válido con código QR

48 mil ejercicios
gratis

Calificación de 4.8/5
en tiendas de aplicaciones

Cursos gratuitos de
vídeo, audio y texto.