NVIDIA AI presenta MM-Embed: el primer recuperador multimodal que logra resultados SOTA en el punto de referencia multimodal M-BEIR

En el mundo de la recuperación de información, una de las tareas más desafiantes es crear un sistema que pueda comprender y recuperar sin problemas contenido relevante en diferentes formatos, como texto e imágenes, sin perder precisión. La mayoría de los modelos de recuperación más modernos todavía están confinados a una única modalidad (ya sea recuperación de texto a texto o de imagen a imagen), lo que limita su aplicabilidad en escenarios del mundo real donde la información viene en diversos formatos. Esta limitación es particularmente evidente en aplicaciones complejas, como la respuesta visual a preguntas o la recuperación de imágenes de moda, donde se necesitan tanto texto como imágenes para obtener respuestas relevantes. Por lo tanto, la necesidad de un recuperador multimodal universal que pueda manejar texto, imágenes y sus combinaciones de manera efectiva nunca ha sido mayor. Los desafíos clave incluyen la dificultad inherente de la comprensión intermodal y la superación de los sesgos dentro de las modalidades individuales.

Los investigadores de NVIDIA han dado un paso adelante para abordar estos desafíos presentando MM-Embed, el primer recuperador multimodal que ha logrado resultados de última generación (SOTA) en el punto de referencia multimodal M-BEIR y se encuentra entre los cinco mejores recuperadores de texto. -Únicamente punto de referencia de recuperación MTEB. MM-Embed tiene como objetivo cerrar la brecha entre múltiples formatos de recuperación, permitiendo una experiencia de búsqueda más fluida que abarque contenido basado en texto e imágenes. Los investigadores perfeccionaron MM-Embed utilizando un modelo de lenguaje grande multimodal (MLLM) como recuperador bicodificador en 16 tareas de recuperación y diez conjuntos de datos, lo que demuestra su versatilidad. A diferencia de otros recuperadores existentes, MM-Embed no se limita a un solo tipo de datos, sino que admite consultas de usuario complejas que pueden estar compuestas tanto de texto como de imágenes. Además, la introducción de la minería negativa dura consciente de la modalidad juega un papel crucial en la mejora de la calidad de recuperación de MM-Embed al minimizar los sesgos comúnmente observados en los MLLM.

La implementación técnica de MM-Embed implicó una serie de estrategias clave diseñadas para maximizar el rendimiento de la recuperación. El modelo utiliza una arquitectura bicodificadora para ajustar el proceso de recuperación, aprovechando la minería negativa dura consciente de la modalidad para mitigar los sesgos que surgen al manejar datos de modalidad mixta. En términos simples, este enfoque de minería ayuda al modelo a centrarse con mayor precisión en la modalidad de destino (ya sea texto, imagen o una combinación), mejorando así su capacidad para manejar consultas difíciles e intercaladas de texto e imagen. Además, MM-Embed se somete a ajustes continuos para aumentar sus capacidades de recuperación de texto sin sacrificar su solidez en tareas multimodales. Esto lo hace particularmente efectivo en un conjunto diverso de escenarios, desde recuperar párrafos de Wikipedia en respuesta a una consulta basada en texto sobre una imagen hasta encontrar imágenes similares basadas en descripciones complejas.

Este avance es significativo por varias razones. En primer lugar, MM-Embed establece un nuevo punto de referencia para la recuperación multimodal con una precisión de recuperación promedio del 52,7 % en todas las tareas M-BEIR, superando los modelos de última generación anteriores. Cuando se trata de dominios específicos, MM-Embed mostró mejoras notables, como una precisión de recuperación (R@5) del 73,8 % para el conjunto de datos MSCOCO, lo que indica su gran capacidad para comprender leyendas de imágenes complejas. Además, al emplear una reclasificación de disparo cero utilizando LLM multimodales, MM-Embed mejoró aún más la precisión de la recuperación en casos que involucran consultas complejas de texto e imágenes, como respuestas visuales a preguntas y tareas de recuperación de imágenes compuestas. En particular, MM-Embed mejoró la precisión de la clasificación en la tarea de recuperación de imágenes compuestas de CIRCO en más de 7 puntos, lo que muestra la eficacia de solicitar a los LLM que reclasifican en escenarios desafiantes del mundo real.

En conclusión, MM-Embed representa un gran avance en la recuperación multimodal. Al integrar y mejorar eficazmente las capacidades de recuperación de texto e imágenes, allana el camino para motores de búsqueda más versátiles y sofisticados capaces de manejar las diversas formas en que las personas buscan información en el panorama digital actual.

Mira el Papel y Modelo abrazando la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️