LLaVA-Critic: un gran modelo multimodal de código abierto diseñado para evaluar el rendimiento del modelo en diversas tareas multimodales

La capacidad de aprender a evaluar está adquiriendo cada vez más un papel fundamental en el desarrollo de grandes modelos multimodales (LMM) modernos. A medida que el entrenamiento previo con datos web existentes llega a sus límites, los investigadores están cambiando hacia el entrenamiento posterior con datos sintéticos mejorados por IA. Esta transición resalta la creciente importancia de aprender a evaluar en los LMM modernos. La evaluación confiable de la IA es importante para el trabajo humano en evaluaciones de tareas complejas, ya que genera señales de recompensa efectivas en el aprendizaje por refuerzo y guía la búsqueda en tiempo de inferencia. A pesar del progreso en escenarios de una sola imagen, múltiples imágenes y video, el desarrollo de LMM abiertos capaces de evaluar el desempeño de otros modelos multimodales presenta una brecha en el campo.

Los intentos existentes de abordar el desafío de la evaluación de la IA se han centrado principalmente en el uso de LMM patentados como GPT-4V como evaluadores generalistas para tareas de visión y lenguaje. Estos modelos se han utilizado en puntos de referencia de evaluación para escenarios complejos como chat visual y subtítulos detallados. Además, han surgido alternativas de código abierto como Prometheus-Vision como evaluadores de criterios de puntuación específicos diseñados por el usuario. En el aprendizaje de preferencias para LMM, se han aplicado técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y la optimización directa de preferencias (DPO) para alinear los modelos con las intenciones humanas. Investigaciones recientes han ampliado estos conceptos al espacio multimodal, explorando varias estrategias para mejorar las habilidades de chat visual y reducir las alucinaciones en modelos de visión y lenguaje.

Investigadores de ByteDance y la Universidad de Maryland, College Park han propuesto LLaVA-Critic, el primer LMM diseñado específicamente para tareas de evaluación. Este enfoque se centra en seleccionar datos de seguimiento de instrucciones adaptados para fines de evaluación. Aborda dos escenarios principales: servir como LMM como juez y facilitar el aprendizaje de preferencias. Su objetivo es proporcionar puntuaciones de evaluación confiables comparables a modelos propietarios como GPT-4V, ofreciendo una alternativa gratuita para varios puntos de referencia de evaluación en el primer escenario. Presenta una solución escalable para generar señales de recompensa efectivas, reduciendo la dependencia de la costosa recopilación de comentarios humanos en el segundo escenario. El LLaVA-Critic muestra una alta correlación con los modelos comerciales GPT en tareas de evaluación y un rendimiento superior en el aprendizaje de preferencias.

LLaVA-Critic se desarrolla ajustando un LMM previamente entrenado, capaz de seguir diversas instrucciones. Este enfoque garantiza que el modelo pueda manejar una variedad de tareas de visión de alta calidad. El proceso de capacitación implica el uso de un mensaje de evaluación que combina instrucciones multimodales, respuestas modelo y una respuesta de referencia opcional. LLaVA-Critic está capacitado para predecir puntuaciones cuantitativas puntuales o clasificaciones por pares basadas en criterios específicos y proporciona justificaciones detalladas para sus juicios. El modelo utiliza la pérdida de entropía cruzada estándar para juicios y justificaciones. Los investigadores comienzan con el punto de control previamente entrenado LLaVA-OneVision(OV) 7B/72B y lo ajustan en el conjunto de datos LLaVA-Critic-113k para una época.

Los resultados demuestran mejoras significativas tanto en la puntuación puntual como en las capacidades de clasificación por pares de LLaVA-Critic en comparación con los modelos de referencia. El LLaVA-Critic-72B logra el promedio más alto de Pearson-r (0,754) y Kendall’s Tau (0,933) en puntuación puntual, superando al LLaVA-OV-72B de referencia. En la clasificación por pares, LLaVA-Critic-72B supera a GPT-4o y GPT-4V en comparaciones sin empate, logrando una precisión del 73,6%. LLaVA-Critic-7B supera a la mayoría de las líneas de base en comparación con los modelos comerciales y otros LMM de código abierto en el escenario MLLM-as-a-Judge. Estos resultados resaltan la efectividad de LLaVA-Critic como una alternativa de código abierto para la evaluación de modelos multimodales.

En conclusión, los investigadores han propuesto LLaVA-Critic, el primer LMM diseñado específicamente para tareas de evaluación. Los investigadores han utilizado un conjunto de datos de seguimiento de instrucciones diverso y de alta calidad para desarrollar este modelo que sobresale en dos áreas críticas. En primer lugar, como evaluador generalizado, LLaVA-Critic muestra una notable alineación con las preferencias humanas y GPT-4o en diversas tareas de evaluación, lo que ofrece una alternativa viable de código abierto a los modelos comerciales. En segundo lugar, en escenarios de aprendizaje de preferencias, LLaVA-Critic funciona como un modelo de recompensa confiable, superando a los enfoques basados en retroalimentación humana al mejorar las capacidades de chat visual de los LMM. Esta investigación es un paso clave hacia la creación de capacidades de autocrítica en LMM de código abierto, lo que permitirá avances futuros en la retroalimentación de alineación de IA sobrehumana y escalable.

Mira el Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.