Sin tren, todo ganancia: mejora de representaciones congeladas con gradientes autosupervisados
Un desafío central en el avance de las tareas de clasificación y recuperación basadas en el aprendizaje profundo es lograr representaciones sólidas sin la necesidad de un reentrenamiento extenso o datos etiquetados. Numerosas aplicaciones dependen de modelos extensos y previamente entrenados que funcionan como extractores de características; sin embargo, estas incorporaciones previamente entrenadas a menudo no logran encapsular los detalles específicos necesarios para un rendimiento óptimo en ausencia de ajustes finos. El reciclaje suele ser poco práctico en muchas áreas limitadas por recursos computacionales limitados o por la falta de datos etiquetados, por ejemplo, en diagnóstico médico y teledetección. Por lo tanto, desarrollar un método que pueda mejorar el rendimiento de representaciones fijas sin requerir reentrenamiento sería una gran contribución al campo, ya que los modelos podrán generalizarse bien en muchas tareas y dominios diferentes.
Enfoques como los algoritmos k-vecino más cercano (kNN), Vision Transformers (ViTs) y técnicas de aprendizaje autosupervisado (SSL) como SimCLR y DINO han logrado avances considerables en el aprendizaje de representaciones aprovechando datos sin etiquetar a través de objetivos de pretexto. Sin embargo, estos métodos están muy restringidos y están limitados por requisitos que pueden requerir ciertas arquitecturas troncales, ajustes intensos o grandes cantidades de datos etiquetados para reducir la generalización. Muchas técnicas SSL ignoran la información de gradiente que potencialmente puede estar presente en estados congelados, lo que podría mejorar la adaptabilidad de las representaciones aprendidas a diversas aplicaciones posteriores al alimentar directamente importantes señales específicas de tareas en las incrustaciones.
Investigadores de la Universidad de Amsterdam y valeo.ai presentan un método optimizado y eficiente en recursos llamado FUNGI (Características de GradIents no supervisados), diseñado para mejorar las incrustaciones congeladas mediante la incorporación de información de gradiente de objetivos de aprendizaje autosupervisados. El nuevo método está diseñado para mejorar la incrustación congelada mediante el uso de información de gradiente de objetivos de aprendizaje autosupervisados. El método es efectivamente adaptable, ya que se puede aplicar con cualquier modelo previamente entrenado sin cambiar sus parámetros, lo que lo hace flexible y computacionalmente eficiente. Utilizando gradientes basados en diversos objetivos SSL, como DINO, SimCLR y divergencia KL, el enriquecimiento FUNGI se lleva a cabo debido a la fusión de información complementaria de otros enfoques en el aprendizaje multimodal. Los gradientes del alumno autosupervisado y reducidos se concatenan para formar incrustaciones de modelos para vectores de características altamente discriminativos utilizados para la clasificación kNN. Esta síntesis eficiente reduce los límites de las técnicas actuales de extracción de características y permite mejorar enormemente el rendimiento sin necesidad de capacitación adicional.
El marco FUNGI opera en tres etapas principales: extracción de gradiente, reducción de dimensionalidad y concatenación con incrustaciones. Primero calcula gradientes utilizando las capas ocultas finales de los modelos Vision Transformer a partir de pérdidas de SSL para capturar características ricas que son relevantes para la tarea. Luego, esos gradientes de alta dimensión se reducen para que coincidan con una dimensionalidad objetivo con la ayuda de una proyección aleatoria binaria. Finalmente, el gradiente reducido se concatena con las incrustaciones y luego se comprime aún más usando la aplicación PCA antes de convertirse en conjuntos de características computacionalmente eficientes y altamente informativos. Al hacer esto, aumenta efectivamente las incrustaciones congeladas para permitir un mayor rendimiento en las tareas de recuperación y clasificación de kNN.
FUNGI mejora sustancialmente en múltiples puntos de referencia, incluidos conjuntos de datos visuales, de texto y de audio. En los resultados de la clasificación kNN, FUNGI muestra un aumento relativo del 4,4 % en todos los modelos ViT, con los mayores aumentos reportados en Flowers y CIFAR-100. En entornos con pocos datos (5 disparos), FUNGI logra un aumento del 2,8 % en la precisión, lo que ilustra su eficacia en entornos con escasez de datos. También cubre tareas de segmentación semántica basadas en recuperación en Pascal VOC, donde FUNGI mejora las incrustaciones de referencia hasta en un 17% en la precisión de la segmentación. Los resultados experimentales muestran que las mejoras proporcionadas por FUNGI son consistentes en diferentes conjuntos de datos y modelos y muy útiles para escenarios de alta eficiencia y adaptabilidad de datos, convirtiéndose así en una solución poderosa para aplicaciones con datos etiquetados y recursos computacionales limitados.
En conclusión, FUNGI proporciona un medio eficiente para mejorar las incorporaciones del modelo previamente entrenado mediante la ingesta de gradientes no supervisados de los objetivos SSL. Mejora las representaciones de modelos congelados al tiempo que preserva el rendimiento en niveles más altos de niveles congelados en comparación con otras tareas de clasificación y recuperación sin reentrenamiento. La adaptabilidad, la eficiencia computacional y el sólido rendimiento con pocos datos caracterizan un desarrollo significativo en el área del aprendizaje de representación, donde los modelos previamente entrenados pueden ejecutarse de manera eficiente en escenarios en los que el reentrenamiento no es practicable. Esta contribución representa un avance clave en la aplicabilidad de la inteligencia artificial a tareas prácticas caracterizadas por datos etiquetados y recursos computacionales limitados.
Mira el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.
🐝🐝 Próximo evento en vivo de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.