Microsoft lanzó LLM2CLIP: una nueva técnica de inteligencia artificial en la que un LLM actúa como profesor para el codificador visual de CLIP

En el mundo de hoy, ACORTAR Es uno de los modelos fundacionales multimodales más importantes. Combina señales visuales y textuales en un espacio de características compartido utilizando una pérdida de aprendizaje contrastiva simple en pares imagen-texto a gran escala. Como recuperador, CLIP admite muchas tareas, incluida la clasificación, detección, segmentación y recuperación de texto de imagen de disparo cero. Además, como extractor de características, se ha vuelto dominante en prácticamente todas las tareas de representación intermodal, como la comprensión de imágenes, la comprensión de videos y la generación de texto a imagen/video. Su fortaleza proviene principalmente de su capacidad para conectar imágenes con lenguaje natural y capturar el conocimiento humano, ya que está entrenado en grandes datos web con descripciones de texto detalladas, a diferencia de los codificadores de visión. como el modelos de lenguaje grandes (LLM) se están desarrollando rápidamente, los límites de la comprensión y generación del lenguaje se están ampliando continuamente. Las sólidas habilidades textuales de los LLM pueden ayudar a CLIP a manejar mejor subtítulos largos y complejos, una debilidad del CLIP original. Los LLM también tienen un amplio conocimiento de grandes conjuntos de datos de texto, lo que hace que la capacitación sea más efectiva. Los LLM tienen fuertes habilidades de comprensión, pero su forma de generar texto oculta habilidades que hacen que sus resultados no sean claros.

Los desarrollos actuales han extendido CLIP para manejar otras modalidades, y su influencia en el campo está creciendo. Nuevos modelos como llama3 se han utilizado para ampliar la longitud de los subtítulos de CLIP y mejorar su rendimiento aprovechando el conocimiento del mundo abierto de los LLM. Sin embargo, incorporar LLM con CLIP requiere trabajo debido a las limitaciones de su codificador de texto. En múltiples experimentos, se encontró que la integración directa LLM en ACORTAR conduce a un rendimiento reducido. Por lo tanto, existen ciertos desafíos que superar para explorar los beneficios potenciales de incorporar LLM en CLIP.

Universidad Tongji y Corporación Microsoft Los investigadores llevaron a cabo una investigación detallada y propusieron la LLM2CLIP enfoque para mejorar el aprendizaje de la representación visual mediante la integración de modelos de lenguaje grandes (LLM). Este método es un paso sencillo al reemplazar el codificador de texto CLIP original y mejora el codificador visual CLIP con un amplio conocimiento de LLM. Identifica los obstáculos clave asociados con esta idea innovadora y sugiere una estrategia de ajuste rentable para superarlos. Este método reemplaza audazmente el codificador de texto CLIP original. Reconoce los desafíos de este enfoque y sugiere una forma asequible de ajustar el modelo para abordarlos.

El LLM2CLIP El método mejoró efectivamente el modelo CLIP al integrar modelos de lenguaje grandes (LLM) como Llama. Inicialmente, los LLM tuvieron dificultades como codificadores de texto para CLIP debido a su incapacidad para distinguir claramente los títulos de las imágenes. Los investigadores introdujeron la técnica de ajuste fino contrastivo de subtítulos para abordar este problema, mejorando en gran medida la capacidad del LLM para separar subtítulos. Este ajuste condujo a un aumento sustancial del rendimiento, superando a los modelos de última generación existentes. El marco LLM2CLIP combinó el LLM mejorado con el codificador visual CLIP previamente entrenado, creando un potente modelo intermodal. El método utilizó grandes LLM, pero siguió siendo computacionalmente eficiente con costos adicionales mínimos.

Los experimentos se centraron principalmente en ajustar modelos para una mejor coincidencia de imagen y texto utilizando conjuntos de datos como CC-3M. Para ajustar LLM2CLIP, tres Se probaron los tamaños de los conjuntos de datos: pequeño (CC-3M), medio (CC-3M y CC-12M), y grande (CC-3M, CC-12M, YFCC-15M y Recaption-1B). El entrenamiento con subtítulos aumentados mejoró el rendimiento, mientras que el uso de un modelo de lenguaje no entrenado para CLIP lo empeoró. Los modelos entrenados con LLM2CLIP superaron a CLIP y EVA estándar en tareas como recuperación de imagen a texto y de texto a imagen, lo que destaca la ventaja de integrar modelos de lenguaje grandes con modelos de imagen-texto.

El método impulsó directamente el rendimiento del anterior. SOTA EVA02 modelo por 16,5% en tareas de recuperación de textos largos y cortos, transformando un modelo CLIP entrenado únicamente con datos en inglés en un modelo multilingüe de última generación. Después de integrar el entrenamiento multimodal con modelos como Llama 1.5tuvo un mejor desempeño que CLIP en casi todos los puntos de referencia, mostrando mejoras generales significativas en el rendimiento.

En conclusión, el método propuesto permite a los LLM ayudar en la formación CLIP. Al ajustar parámetros como la distribución de datos, la longitud o las categorías, el LLM se puede modificar para corregir las limitaciones de CLIP. Permite que LLM actúe como un profesor más integral para diversas tareas. En el trabajo propuesto, los gradientes LLM se congelaron durante el ajuste para mantener un tamaño de lote grande para el entrenamiento CLIP. En trabajos futuros, el LLM2CLIP se puede entrenar desde cero en conjuntos de datos como Laion-2Band y Recaptación-1B para mejores resultados y rendimiento. ¡Este trabajo puede utilizarse como base para futuras investigaciones sobre la formación CLIP y su amplia gama de aplicaciones!


Mira el Papel, Códigoy Modelo abrazando la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias


Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.

🐝🐝 Próximo evento en vivo de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.

Leer más
Back to top button