Conozca LLaVA-o1: el primer modelo de lenguaje visual capaz de realizar un razonamiento sistemático y espontáneo similar a GPT-o1

El desarrollo de modelos visión-lenguaje (VLM) ha enfrentado desafíos en el manejo de tareas complejas de respuesta visual a preguntas. A pesar de los avances sustanciales en las capacidades de razonamiento mediante grandes modelos de lenguaje como GPT-o1 de OpenAI, los VLM todavía luchan con el razonamiento sistemático y estructurado. Los modelos actuales a menudo carecen de la capacidad de organizar información y participar en razonamientos lógicos y secuenciales, lo que limita su efectividad para tareas que requieren un procesamiento cognitivo profundo, particularmente cuando se trata de entradas multimodales como imágenes combinadas con texto. Los VLM tradicionales tienden a generar respuestas inmediatas sin un enfoque de razonamiento paso a paso, lo que genera errores e inconsistencias.

Conoce LLaVA-o1

Un equipo de investigadores de la Universidad de Pekín, la Universidad de Tsinghua, el Laboratorio Peng Cheng, la Academia Alibaba DAMO y la Universidad de Lehigh ha presentado LLaVA-o1: un modelo de lenguaje visual capaz de razonamiento sistemático, similar a GPT-o1. LLaVA-o1 es un modelo de 11 mil millones de parámetros diseñado para un razonamiento autónomo en varias etapas. Se basa en el modelo Llama-3.2-Vision-Instruct e introduce un proceso de razonamiento estructurado, abordando las limitaciones de los VLM anteriores con un enfoque más metódico. La innovación clave en LLaVA-o1 es la implementación de cuatro etapas de razonamiento distintas: resumen, título, razonamiento y conclusión.

El modelo se afina utilizando un conjunto de datos llamado LLaVA-o1-100k, derivado de fuentes de respuesta visual a preguntas (VQA) y anotaciones de razonamiento estructurado generadas por GPT-4o. Esto permite a LLaVA-o1 realizar razonamientos de varias etapas, ampliando capacidades similares a GPT-o1 en tareas de visión y lenguaje, que históricamente se han quedado rezagadas con respecto a los modelos basados en texto.

Detalles técnicos y beneficios

LLaVA-o1 emplea una novedosa técnica de escalamiento de tiempo de inferencia llamada búsqueda de haz a nivel de etapa. A diferencia de los métodos anteriores, como la búsqueda por haz de lo mejor de N o a nivel de oración, LLaVA-o1 genera múltiples respuestas para cada etapa de su proceso de razonamiento estructurado y selecciona el mejor candidato en cada paso, lo que garantiza resultados de mayor calidad. Este enfoque estructurado mantiene la coherencia lógica durante todo el proceso de razonamiento, lo que lleva a conclusiones más precisas.

Ajustado a partir del modelo Llama-3.2-11B-Vision-Instruct, LLaVA-o1 muestra una mejora del 8,9% en los puntos de referencia de razonamiento multimodal en comparación con su modelo base, superando incluso a competidores más grandes o de código cerrado como Gemini-1.5-pro, GPT. -4o-mini y Llama-3.2-90B-Vision-Instruct. Lo logra con solo 100.000 muestras de entrenamiento, lo que convierte a LLaVA-o1 en una solución eficiente en términos de rendimiento y escalabilidad. Al emplear pensamiento estructurado a través de distintas etapas, LLaVA-o1 aborda sistemáticamente los problemas, minimizando los errores de razonamiento comunes en otros VLM.

Importancia y resultados

LLaVA-o1 aborda una brecha significativa entre los modelos de respuesta a preguntas textuales y visuales al permitir el razonamiento sistemático en tareas de visión y lenguaje. Los resultados experimentales muestran que LLaVA-o1 mejora el rendimiento en puntos de referencia como MMStar, MMBench, MMVet, MathVista, AI2D y HalllusionBench. Supera consistentemente su modelo base en más del 6,9% en los puntos de referencia multimodales, particularmente en dominios de razonamiento intensivo, como preguntas visuales matemáticas y científicas.

La búsqueda de haces a nivel de etapa mejora la confiabilidad del modelo al generar y verificar múltiples respuestas candidatas para cada etapa, seleccionando la más apropiada. Esto permite a LLaVA-o1 sobresalir en tareas visuales complejas, en comparación con los métodos tradicionales de escalado de inferencia que pueden resultar ineficientes. LLaVA-o1 demuestra que las respuestas estructuradas son cruciales para lograr un razonamiento consistente y de alta calidad, estableciendo un nuevo estándar para modelos de tamaño similar.

Conclusión

LLaVA-o1 es un modelo de lenguaje visual capaz de razonamiento sistemático, similar a GPT-o1. Su estructura de razonamiento de cuatro etapas, combinada con la búsqueda de haces a nivel de etapa, establece un nuevo punto de referencia para la IA multimodal. Al entrenar en un conjunto de datos relativamente pequeño pero construido estratégicamente, LLaVA-o1 demuestra que se puede lograr un razonamiento multimodal eficiente y escalable sin los recursos masivos que requieren los modelos de código cerrado más grandes. LLaVA-o1 allana el camino para futuras investigaciones sobre el razonamiento estructurado dentro de modelos de visión y lenguaje, prometiendo capacidades más avanzadas en el procesamiento cognitivo impulsado por IA en los dominios visuales y textuales.

Consulte la página de Paper y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

Por qué los modelos de lenguaje de IA siguen siendo vulnerables: información clave del informe de Kili Technology sobre las vulnerabilidades de los modelos de lenguaje grandes (Lea el informe técnico completo aquí)

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.