Vinoground: un punto de referencia de evaluación LMM de modelos multimodales grandes contrafactuales temporales que abarca 1000 pares de subtítulos de vídeo cortos y naturales

La inteligencia generativa ha seguido siendo un tema candente durante algún tiempo, y el mundo actual es testigo de un auge sin precedentes en las innovaciones e investigaciones relacionadas con la IA, especialmente después de la introducción de los grandes modelos de lenguaje. Se está asignando una cantidad significativa de fondos a la investigación relacionada con el LLM en el mundo académico y la industria, y se pretende crear la intervención innovadora posterior que alteraría la industria en el futuro. Al examinar los modelos múltiples de lenguaje grande, vemos que el sentimiento general que persiste hoy afirma que estos han abordado con éxito los desafíos asociados con el contenido de video, específicamente los cortos. En consecuencia, los LLM están avanzando para abordar tareas más desafiantes en contenido multimodal, incluidos videos más largos. Sin embargo, ¿es auténtica esta afirmación? ¿Hemos logrado un rendimiento humano equivalente con los LLM de SOTA para videos cortos? Vinoground analiza esta afirmación y evalúa si estamos listos para subir de nivel o si los LLM necesitan revisar sus fundamentos en comprensión de videos.

Vinoground es un punto de referencia de evaluación de LLM contrafactual temporal realizado por investigadores de la Universidad de Wisconsin. Consta de 1000 vídeos cortos y naturales junto con sus subtítulos. Este desafiante conjunto de datos evalúa la capacidad de los LLM para comprender videos con información temporal densa. El factor que distingue a VinoGround de sus contemporáneos es su naturalidad, con acciones y transformaciones consecutivas de la vida real que realmente prueban y exponen las incapacidades de los LLM actuales en cuadros de video. Apenas hay unos pocos puntos de referencia que replican el verdadero campo de pruebas práctico para los LLM, mientras que muchos puntos de referencia son temporalmente escasos y muestran que los LLM tienen sesgos de fotograma único y otros contrafactuales temporales no son naturales. Los LLM de código abierto y propietarios de última generación mostraron un rendimiento deficiente en Vinoground, lo que indica que necesitan lograr una comprensión de video confiable.

Estos datos se clasifican en tres categorías principales: Objeto, Acción y Punto de vista. Además, hay cuatro categorías menores: interacción, cíclica, espacial y contextual. Los modelos se evalúan según cada una de estas categorías. Luego viene la generación de subtítulos, donde los autores eligen GPT -4 para generar subtítulos contrafactuales en lugar de costosas anotaciones humanas. Estos subtítulos debían tener las palabras exactas en diferentes permutaciones. La curación de videos fue quizás la tarea más crucial, y Vinoground utilizó la parte de prueba y validación no capacitada del conjunto de datos VATEX. Los subtítulos de VATEX se compararon con los generados por GPT mediante la extracción de funciones a través de la biblioteca FAISS. Si no había coincidencias adecuadas, los autores buscaban en YouTube una musa para sus subtítulos GPT. Finalmente, el conjunto de datos se dividió según el siguiente criterio:

Objeto: los vídeos mostraron una transformación en el estado del objeto.
Acción: conjunto de tareas que ocurren en diferentes órdenes para ver si el modelo puede captar este intercambio.
Punto de vista: cambios en el ángulo, la perspectiva o el enfoque de la cámara.
Vídeos de interacción donde un humano cambia su forma de interactuar con un objeto.
Cíclico- Vídeos con actividades temporales procesales y actividades dependientes
Espacial: movimientos de objetos a través del espacio.
Contextual: para comprender los cambios en el fondo o la información general de todo el vídeo.

Vinoground expuso las afirmaciones de modelos tanto propietarios como de código abierto. Los modelos basados en clips, como los videoclips y LanguageBind, tuvieron un rendimiento incluso peor que las posibilidades aleatorias. GPT 4o obtuvo el mejor rendimiento en cuanto a modelos generativos, con un 54 % en la métrica de puntuación de texto. Se realizó utilizando indicaciones de Cadena de Pensamiento (CoT) en GPT, pero hubo una compensación con el desempeño del grupo. Los modelos de código abierto como LLaVA-OneVision y Qwen2-VL funcionaron en paralelo y su rendimiento no cambió después de usar CoT.

Los expertos dicen que necesitamos una IA que sea 1) precisa y confiable, 2) energéticamente eficiente y 3) personalizable en el mismo orden de prioridad y no de otra manera. Los desarrolladores afirman que sus LLM tienen un rendimiento confiable y están a la par con los humanos, pero investigadores como VinoGround dan una prueba de la realidad para que la comunidad de inteligencia artificial y los desarrolladores de LLM reflexionen sobre sus afirmaciones.

Mira el Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Adeeba Alam Ansari actualmente está cursando su doble titulación en el Instituto Indio de Tecnología (IIT) Kharagpur, donde obtuvo una licenciatura en Ingeniería Industrial y una maestría en Ingeniería Financiera. Con un gran interés en el aprendizaje automático y la inteligencia artificial, es una lectora ávida y una persona curiosa. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo real.