Apple AI Research presenta MM1.5: una nueva familia de modelos de lenguaje grande multimodales generalistas (MLLM) de alto rendimiento

Los modelos multimodales de lenguajes grandes (MLLM) representan un área de vanguardia en inteligencia artificial, ya que combinan diversas modalidades de datos como texto, imágenes e incluso video para construir una comprensión unificada en todos los dominios. Estos modelos se están desarrollando para abordar tareas cada vez más complejas, como la respuesta visual a preguntas, la generación de texto a imagen y la interpretación de datos multimodales. El objetivo final de los MLLM es capacitar a los sistemas de inteligencia artificial para razonar e inferir con capacidades similares a la cognición humana mediante la comprensión simultánea de múltiples formas de datos. Este campo ha experimentado rápidos avances, pero sigue siendo un desafío crear modelos que puedan integrar estas diversas entradas manteniendo un alto rendimiento, escalabilidad y generalización.

Uno de los problemas críticos que enfrenta el desarrollo de MLLM es lograr una interacción sólida entre diferentes tipos de datos. Los modelos existentes a menudo necesitan ayuda para equilibrar el procesamiento de información visual y de texto, lo que conduce a una caída en el rendimiento al manejar imágenes ricas en texto o tareas de base visual detalladas. Además, estos modelos necesitan ayuda para mantener un alto grado de comprensión contextual cuando operan con múltiples imágenes. A medida que crece la demanda de modelos más versátiles, los investigadores buscan formas innovadoras de mejorar la capacidad de los MLLM para abordar estos desafíos, permitiendo así que los modelos manejen sin problemas escenarios complejos sin sacrificar la eficiencia o la precisión.

Los enfoques tradicionales de MLLM se basan principalmente en una capacitación de modalidad única y no aprovechan todo el potencial de combinar datos visuales y textuales. Esto da como resultado un modelo que puede sobresalir en tareas lingüísticas o visuales, pero que tiene dificultades en contextos multimodales. Aunque los enfoques recientes han integrado conjuntos de datos más grandes y arquitecturas más complejas, todavía adolecen de ineficiencias al combinar los dos tipos de datos. Existe una necesidad creciente de modelos que puedan funcionar bien en tareas que requieren interacción entre imágenes y texto, como la referencia a objetos y el razonamiento visual, sin dejar de ser computacionalmente factibles y desplegables a escala.

Investigadores de Apple desarrollaron el MM1.5 familia de modelos e introdujo varias innovaciones para superar estas limitaciones. Los modelos MM1.5 mejoran las capacidades de su predecesor, MM1, al mejorar la comprensión de imágenes ricas en texto y el razonamiento de múltiples imágenes. Los investigadores adoptaron un enfoque novedoso centrado en datos, integrando datos OCR de alta resolución y subtítulos sintéticos en una fase continua de preentrenamiento. Esto permite significativamente que los modelos MM1.5 superen a los modelos anteriores en comprensión visual y tareas de conexión a tierra. Además de los MLLM de uso general, la familia de modelos MM1.5 incluye dos variantes especializadas: MM1.5-Vídeo para la comprensión del vídeo y MM1.5-UI para la comprensión de la interfaz de usuario móvil. Estos modelos específicos brindan soluciones personalizadas para casos de uso específicos, como la interpretación de datos de video o el análisis de diseños de pantallas móviles.

MM1.5 utiliza una estrategia de entrenamiento única que involucra tres etapas principales: entrenamiento previo a gran escala, entrenamiento previo continuo de alta resolución y ajuste fino supervisado (SFT). La primera etapa utiliza un conjunto de datos masivo que comprende 2 mil millones de pares de imagen y texto, 600 millones de documentos de imagen y texto entrelazados y 2 billones de tokens de datos de solo texto, lo que proporciona una base sólida para la comprensión multimodal. La segunda etapa implica un entrenamiento previo continuo utilizando 45 millones de puntos de datos OCR de alta calidad y 7 millones de subtítulos sintéticos, lo que ayuda a mejorar el rendimiento del modelo en tareas de imágenes ricas en texto. La etapa final, SFT, optimiza el modelo utilizando una combinación bien seleccionada de datos de una sola imagen, varias imágenes y solo texto, lo que lo hace experto en el manejo de referencias visuales detalladas y razonamiento de múltiples imágenes.

Los modelos MM1.5 han sido evaluados en varios puntos de referencia, mostrando un rendimiento superior sobre los modelos propietarios y de código abierto en diversas tareas. Por ejemplo, las variantes MM1.5 densa y MoE varían entre mil millones y 30 mil millones de parámetros, logrando resultados competitivos incluso a escalas más pequeñas. El aumento de rendimiento es particularmente notable en la comprensión de imágenes ricas en texto, donde los modelos MM1.5 demuestran una mejora de 1,4 puntos con respecto a los modelos anteriores en puntos de referencia específicos. Además, MM1.5-Video, entrenado únicamente con datos de imágenes sin datos específicos de video, logró resultados de vanguardia en tareas de comprensión de video al aprovechar sus sólidas capacidades multimodales de propósito general.

Los extensos estudios empíricos realizados sobre los modelos MM1.5 revelaron varias ideas clave. Los investigadores demostraron que la curación de datos y las estrategias de entrenamiento óptimas pueden generar un rendimiento sólido incluso en escalas de parámetros más bajas. Además, incluir datos de OCR y subtítulos sintéticos durante la etapa de preentrenamiento continuo mejora significativamente la comprensión del texto en diferentes resoluciones de imagen y relaciones de aspecto. Estos conocimientos allanan el camino para desarrollar MLLM más eficientes en el futuro, que puedan ofrecer resultados de alta calidad sin requerir modelos a escala extremadamente grande.

Conclusiones clave de la investigación:

Variantes de modelo: Esto incluye modelos densos y MoE con parámetros que van desde 1B a 30B, lo que garantiza escalabilidad y flexibilidad de implementación.
Datos de entrenamiento: Utiliza pares de imagen y texto de 2B, 600 millones de documentos de imagen y texto entrelazados y tokens de solo texto 2T.
Variantes especializadas: MM1.5-Video y MM1.5-UI ofrecen soluciones personalizadas para la comprensión de vídeo y el análisis de la interfaz de usuario móvil.
Mejora del rendimiento: Se logró una ganancia de 1,4 puntos en los puntos de referencia centrados en la comprensión de imágenes con texto rico en comparación con los modelos anteriores.
Integración de datos: El uso eficaz de 45 millones de datos OCR de alta resolución y 7 millones de subtítulos sintéticos aumenta significativamente las capacidades del modelo.

En conclusión, la familia de modelos MM1.5 establece un nuevo punto de referencia en modelos de lenguaje multimodal de gran tamaño, ya que ofrece capacidades mejoradas de comprensión de imágenes ricas en texto, base visual y razonamiento de múltiples imágenes. Con sus estrategias de datos cuidadosamente seleccionadas, variantes especializadas para tareas específicas y arquitectura escalable, MM1.5 está preparado para abordar desafíos clave en la IA multimodal. Los modelos propuestos demuestran que la combinación de métodos sólidos de preentrenamiento y estrategias de aprendizaje continuo puede dar como resultado un MLLM de alto rendimiento que sea versátil en diversas aplicaciones, desde la comprensión general de imágenes y textos hasta la comprensión especializada de videos y UI.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.