Revolucionando la clasificación de imágenes: entrenamiento de grandes redes neuronales convolucionales en el conjunto de datos ImageNet

Entrenamiento de una CNN grande para la clasificación de imágenes:
Los investigadores desarrollaron una CNN de gran tamaño para clasificar 1,2 millones de imágenes de alta resolución del concurso ImageNet LSVRC-2010, que abarca 1.000 categorías. El modelo, que contiene 60 millones de parámetros y 650.000 neuronas, logró resultados impresionantes, con tasas de error top-1 y top-5 del 37,5% y 17,0%, respectivamente, superando significativamente a los métodos anteriores. La arquitectura consta de cinco capas convolucionales y tres capas completamente conectadas, que terminan con un softmax de 1.000 vías. Las innovaciones clave, como el uso de neuronas no saturadas y el empleo de la pérdida de datos para evitar el sobreajuste, permitieron un entrenamiento eficiente en las GPU. El rendimiento de la CNN mejoró en la competición ILSVRC-2012, logrando una tasa de error top-5 del 15,3%, en comparación con el 26,2% del siguiente mejor modelo.

El éxito de este modelo refleja un cambio más amplio en la visión por computadora hacia enfoques de aprendizaje automático que aprovechan grandes conjuntos de datos y potencia computacional. Anteriormente, los investigadores dudaban de que las redes neuronales pudieran resolver tareas visuales complejas sin sistemas diseñados a mano. Sin embargo, este trabajo demostró que con suficientes datos y recursos computacionales, los modelos de aprendizaje profundo pueden aprender características complejas a través de un algoritmo de propósito general como la retropropagación. La eficiencia y escalabilidad de la CNN fueron posibles gracias a los avances en la tecnología de GPU y conjuntos de datos más grandes como ImageNet, lo que permitió el entrenamiento de redes profundas sin problemas de sobreajuste significativos. Este avance marca un cambio de paradigma en el reconocimiento de objetos, allanando el camino para modelos más potentes y basados ​​en datos en la visión por computadora.

Conjunto de datos y arquitectura de red:
Los investigadores utilizaron ImageNet, un conjunto de datos completo que comprende más de 15 millones de imágenes de alta resolución en aproximadamente 22.000 categorías, todas obtenidas de la web y etiquetadas a través de Mechanical Turk de Amazon. Para el ImageNet Large-Scale Visual Recognition Challenge (ILSVRC), que comenzó en 2010 como parte del Pascal Visual Object Challenge, se centraron en un subconjunto de ImageNet que contenía alrededor de 1,2 millones de imágenes de entrenamiento, 50.000 imágenes de validación y 150.000 imágenes de prueba distribuidas uniformemente en 1.000 categorías. Para garantizar dimensiones de entrada uniformes para su CNN, todas las fotos se redimensionaron a 256 × 256 píxeles escalando el lado más corto a 256 y recortando la imagen centralmente. El único paso de preprocesamiento adicional implicó restar la actividad de píxeles media de cada imagen, lo que permitió que la red se entrenara con valores RGB sin procesar de manera efectiva.

La arquitectura CNN desarrollada por los investigadores constaba de ocho capas, incluidas cinco capas convolucionales y tres capas completamente conectadas, que culminaban en una salida softmax de 1000 vías. Esta red profunda, que contiene 60 millones de parámetros y 650 000 neuronas, se optimizó para un alto rendimiento mediante varias características novedosas. Emplearon unidades lineales rectificadas (ReLU) en lugar de las activaciones tradicionales de tanh para acelerar el entrenamiento, lo que demostró una convergencia significativamente más rápida en el conjunto de datos CIFAR-10. La red se distribuyó en dos GPU GTX 580 para gestionar las amplias demandas computacionales utilizando una estrategia de paralelización especializada que minimizó la comunicación entre GPU. Además, se implementaron la normalización de la respuesta local y la agrupación superpuesta para mejorar la generalización y reducir las tasas de error. El entrenamiento de la red llevó de cinco a seis días, aprovechando las implementaciones optimizadas de GPU de las operaciones de convolución para lograr un rendimiento de vanguardia en las tareas de reconocimiento de objetos.

Reducción del sobreajuste en redes neuronales:
La red, que contiene 60 millones de parámetros, se enfrenta a un sobreajuste debido a las limitaciones insuficientes de los datos de entrenamiento. Para solucionarlo, los investigadores aplican dos técnicas clave. En primer lugar, el aumento de datos amplía artificialmente el conjunto de datos mediante traducciones de imágenes, reflexiones y alteraciones de la intensidad RGB mediante PCA. Este método ayuda a reducir las tasas de error top-1 en más del 1%. En segundo lugar, empleamos la deserción en capas completamente conectadas, desactivando aleatoriamente las neuronas durante el entrenamiento para evitar la coadaptación y mejorar la robustez de las características. La deserción aumenta las iteraciones de entrenamiento, pero es crucial para reducir el sobreajuste sin aumentar los costos computacionales.

Resultados de las competiciones ILSVRC:
El modelo CNN alcanzó índices de error top-1 y top-5 de 37,5% y 17,0% en el conjunto de datos ILSVRC-2010, superando a métodos anteriores como la codificación dispersa (47,1% y 28,2%). En la competencia ILSVRC-2012, el modelo alcanzó un índice de error de validación top-5 de 18,2%, que mejoró a 16,4% cuando se promediaron las predicciones de cinco CNN. Además, el entrenamiento previo en el conjunto de datos ImageNet Fall 2011, seguido de un ajuste fino, redujo el error a 15,3%. Estos resultados superan significativamente los métodos anteriores que usaban características densas, que informaron un error de prueba top-5 de 26,2%.

Discusión:
La CNN profunda y de gran tamaño logró un rendimiento récord en el desafiante conjunto de datos ImageNet, con tasas de error entre los primeros 1 y los primeros 5 del 37,5 % y el 17,0 %, respectivamente. La eliminación de cualquier capa convolucional redujo la precisión en aproximadamente un 2 %, lo que demuestra la importancia de la profundidad de la red. Aunque no se utilizó un entrenamiento previo no supervisado, puede mejorar aún más los resultados. Con el tiempo, a medida que el hardware y las técnicas mejoraron, las tasas de error se redujeron en un factor de tres, lo que acercó el rendimiento de las CNN al nivel humano. El éxito de nuestro modelo impulsó la adopción generalizada del aprendizaje profundo en empresas como Google, Facebook y Microsoft, lo que revolucionó la visión artificial.


Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Leer más
Back to top button