Motor de búsqueda MMSearch: búsqueda con inteligencia artificial con capacidades multimodales avanzadas para procesar e integrar con precisión consultas textuales y visuales para obtener mejores resultados de búsqueda

Los motores de búsqueda tradicionales se han basado predominantemente en consultas basadas en texto, lo que limita su capacidad para procesar e interpretar la información cada vez más compleja que se encuentra en línea hoy en día. Muchos sitios web modernos presentan tanto texto como imágenes. Sin embargo, la capacidad de los motores de búsqueda convencionales para manejar estas consultas multimodales, aquellas que requieren una comprensión tanto del contenido visual como del textual, sigue siendo deficiente. Los modelos de lenguaje grandes (LLM) han demostrado ser muy prometedores para mejorar la precisión de los resultados de búsqueda textual. Sin embargo, aún se quedan cortos cuando se trata de abordar por completo las consultas que involucran imágenes, videos u otros medios no textuales.

Uno de los principales desafíos de la tecnología de búsqueda es cerrar la brecha entre la forma en que los motores de búsqueda procesan los datos textuales y la creciente necesidad de interpretar la información visual. Hoy en día, los usuarios suelen buscar respuestas que requieren más que texto; pueden cargar imágenes o capturas de pantalla, esperando que la IA recupere contenido relevante en función de estos datos. Sin embargo, los motores de búsqueda de IA actuales siguen centrados en el texto y necesitan ayuda para comprender la profundidad de las relaciones entre imágenes y texto que podrían mejorar la calidad y la relevancia de los resultados de búsqueda. Esta limitación limita la eficacia de dichos motores y dificulta su necesidad de ser más coherentes, en particular en escenarios en los que el contexto visual es tan importante como el contenido textual.

Los métodos actuales para la integración de búsquedas multimodales aún necesitan ser más cohesivos. Si bien herramientas como Google Lens pueden realizar búsquedas de imágenes rudimentarias, deben combinar de manera eficiente el reconocimiento de imágenes con búsquedas integrales de datos web. La brecha entre la interpretación de las entradas visuales y su conexión con los resultados basados en texto relevantes limita la capacidad general de los motores de búsqueda impulsados por IA. Además, el rendimiento de estas herramientas mejora aún más por la necesidad de procesamiento en tiempo real para consultas multimodales. A pesar de la rápida evolución de los LLM, todavía existe la necesidad de un motor de búsqueda que pueda procesar de manera cohesiva tanto el texto como las imágenes de manera unificada.

Un equipo de investigación de CUHK MMLab, ByteDance, CUHK MiuLar Lab, Shanghai AI Laboratory, la Universidad de Pekín, la Universidad de Stanford y Sensetime Research presentaron el Motor de búsqueda MMEsta nueva herramienta transforma el panorama de las búsquedas al permitir que cualquier LLM gestione consultas de búsqueda multimodales. A diferencia de los motores tradicionales, MMSearch incorpora una secuencia estructurada que procesa entradas de texto y visuales simultáneamente. Los investigadores desarrollaron este sistema para optimizar la forma en que los LLM gestionan las complejidades de los datos multimodales, mejorando así la precisión de los resultados de búsqueda. El motor MMSearch está diseñado para reprocesar las consultas de los usuarios, analizar sitios web relevantes y resumir las respuestas más informativas basadas en texto e imágenes.

El motor de búsqueda MMSearch se basa en un proceso de tres pasos diseñado para abordar las deficiencias de las herramientas existentes. En primer lugar, el motor reformula las consultas en un formato más adecuado para los motores de búsqueda. Por ejemplo, si una consulta incluye una imagen, MMSearch traduce los datos visuales en consultas de texto significativas, lo que facilita su interpretación por parte de los expertos en derecho. En segundo lugar, vuelve a clasificar los sitios web que recupera el motor de búsqueda, priorizando aquellos que ofrecen la información más relevante. Por último, el sistema resume el contenido integrando datos visuales y textuales, lo que garantiza que la respuesta cubra todos los aspectos de la consulta. Cabe destacar que esta interacción de varias etapas garantiza una experiencia de búsqueda sólida para los usuarios que requieren resultados basados en imágenes y texto.

En términos de rendimiento, el motor de búsqueda MMSearch demuestra mejoras considerables con respecto a las herramientas de búsqueda existentes. Los investigadores evaluaron el sistema en 300 consultas que abarcaban 14 subcampos, incluidos tecnología, deportes y finanzas. MMSearch tuvo un rendimiento significativamente mejor que Perplexity Pro, un motor de búsqueda de IA comercial líder. Por ejemplo, la versión mejorada con MMSearch de GPT-4o logró la puntuación general más alta en tareas de búsqueda multimodal. Superó a Perplexity Pro en una evaluación de extremo a extremo, en particular en su capacidad para manejar consultas complejas basadas en imágenes. En los 14 subcampos, MMSearch manejó más de 2900 imágenes únicas, lo que garantiza que los datos proporcionados fueran relevantes y coincidieran bien con la consulta.

Los resultados detallados del estudio muestran que GPT-4o equipado con MMSearch logró una notable puntuación general del 62,3 % en el manejo de consultas multimodales. Este desempeño incluyó la consulta, la reclasificación y el resumen de contenido basado en texto e imágenes. El conjunto de datos completo, recopilado de varias fuentes, fue diseñado para excluir cualquier información que pudiera superponerse con el conocimiento preexistente del LLM, lo que garantiza que la evaluación se centre exclusivamente en la capacidad del motor para procesar datos nuevos en tiempo real. Además, MMSearch superó a Perplexity Pro en tareas de reclasificación, lo que demuestra su capacidad superior para clasificar sitios web en función del contenido multimodal.

En conclusión, el motor de búsqueda MMSearch representa un avance significativo en la tecnología de búsqueda multimodal. Al abordar las limitaciones de las consultas de solo texto e introducir un sistema sólido para manejar datos tanto textuales como visuales, los investigadores han proporcionado una herramienta que podría redefinir el funcionamiento de los motores de búsqueda de IA. El éxito del sistema al procesar más de 2900 imágenes y generar resultados de búsqueda precisos en 300 consultas únicas muestra su potencial en entornos académicos y comerciales. La combinación de datos de imágenes con capacidades avanzadas de LLM ha llevado a mejoras significativas en el rendimiento, posicionando a MMSearch como una solución líder para la próxima generación de motores de búsqueda de IA.

Echa un vistazo a la Papel y ProyectoTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)