Michelangelo: un marco de inteligencia artificial para evaluar el razonamiento de contexto largo en modelos de lenguaje grandes más allá de las tareas de recuperación simples

En el campo de la inteligencia artificial y el procesamiento del lenguaje natural, el razonamiento en contextos extensos ha surgido como un área de investigación crucial. A medida que aumenta el volumen de información que se necesita procesar, las máquinas deben ser capaces de sintetizar y extraer datos relevantes de conjuntos de datos masivos de manera eficiente. Esto va más allá de las tareas de recuperación simples, ya que requiere que los modelos localicen fragmentos específicos de información y comprendan relaciones complejas dentro de contextos vastos. La capacidad de razonar en estos contextos extensos es esencial para funciones como el resumen de documentos, la generación de código y el análisis de datos a gran escala, todos ellos fundamentales para los avances en IA.

Un desafío clave al que se enfrentan los investigadores es la necesidad de contar con herramientas más efectivas para evaluar la comprensión de contextos extensos en modelos lingüísticos de gran tamaño. La mayoría de los métodos existentes se centran en la recuperación, donde la tarea se limita a encontrar una única pieza de información en un contexto amplio, de forma similar a encontrar una aguja en un pajar. Sin embargo, la recuperación por sí sola no prueba por completo la capacidad de un modelo para comprender y sintetizar información de grandes conjuntos de datos. A medida que aumenta la complejidad de los datos, es fundamental medir la capacidad de los modelos para procesar y conectar piezas dispersas de información en lugar de depender de la simple recuperación.

Los métodos actuales son inadecuados porque a menudo miden capacidades de recuperación aisladas en lugar de la habilidad más compleja de sintetizar información relevante a partir de un flujo de datos grande y continuo. Un método popular, llamado la tarea de la aguja en el pajar, evalúa qué tan bien los modelos pueden encontrar un fragmento específico de datos. Sin embargo, este enfoque no prueba la capacidad del modelo para comprender y procesar múltiples puntos de datos relacionados, lo que genera limitaciones en la evaluación de su verdadero potencial de razonamiento en contextos amplios. Si bien brindan cierta información sobre las capacidades de estos modelos, los puntos de referencia recientes han sido criticados por su alcance limitado y su incapacidad para medir el razonamiento profundo en contextos amplios.

Los investigadores de Google DeepMind y Google Research han introducido un nuevo método de evaluación llamado Miguel ÁngelEste marco innovador prueba el razonamiento de contexto largo en modelos que utilizan datos sintéticos y no filtrados, lo que garantiza que las evaluaciones sean desafiantes y relevantes. El marco Michelangelo se centra en la comprensión de contexto largo a través de un sistema llamado Consultas de Estructura Latente (LSQ), que permite al modelo revelar estructuras ocultas dentro de un contexto grande descartando información irrelevante. Los investigadores apuntan a evaluar qué tan bien los modelos pueden sintetizar información de puntos de datos dispersos en un conjunto de datos extenso en lugar de simplemente recuperar detalles aislados. Michelangelo presenta un nuevo conjunto de pruebas que mejora significativamente el enfoque tradicional de recuperación de información de tipo “aguja en un pajar”.

El marco de trabajo Michelangelo comprende tres tareas principales: lista latente, resolución de correferencia de múltiples rondas (MRCR) y la tarea IDK. La tarea de lista latente implica presentar una secuencia de operaciones de Python al modelo, lo que requiere que realice un seguimiento de los cambios en una lista y determine resultados específicos, como sumas, mínimos o longitudes después de múltiples modificaciones de la lista. Esta tarea está diseñada con una complejidad creciente, desde operaciones simples de un solo paso hasta secuencias que involucran hasta 20 modificaciones relevantes. MRCR, por otro lado, desafía a los modelos a manejar conversaciones complejas al reproducir piezas clave de información incrustadas en un diálogo largo. La tarea IDK prueba la capacidad del modelo para identificar cuándo no tiene suficiente información para responder una pregunta. Es crucial garantizar que los modelos no produzcan resultados inexactos basados en datos incompletos.

En términos de rendimiento, el marco Michelangelo proporciona información detallada sobre qué tan bien los modelos de frontera actuales manejan el razonamiento de contexto largo. Las evaluaciones en modelos como GPT-4, Claude 3 y Gemini revelan diferencias notables. Por ejemplo, todos los modelos experimentaron una caída significativa en la precisión al lidiar con tareas que involucraban más de 32 000 tokens. En este umbral, modelos como GPT-4 y Claude 3 mostraron caídas pronunciadas, con puntajes promedio acumulados que cayeron de 0,95 a 0,80 para GPT-4 en la tarea MRCR a medida que el número de tokens aumentó de 8000 a 128 000. Claude 3.5 Sonnet mostró un rendimiento similar, disminuyendo los puntajes de 0,85 a 0,70 en el mismo rango de tokens. Curiosamente, los modelos Gemini tuvieron un mejor desempeño en contextos más largos: el modelo Gemini 1.5 Pro logró un rendimiento sin disminución hasta 1 millón de tokens en las tareas MRCR y Latent List, superando a otros modelos al mantener una puntuación acumulativa por encima de 0,80.

En conclusión, el marco Michelangelo proporciona una mejora muy necesaria en la evaluación del razonamiento de contexto largo en modelos de lenguaje grandes. Al cambiar el enfoque de la recuperación simple a tareas de razonamiento más complejas, este marco desafía a los modelos a desempeñarse a un nivel superior, sintetizando información en grandes conjuntos de datos. Esta evaluación muestra que, si bien los modelos actuales, como GPT-4 y Claude 3, tienen dificultades con las tareas de contexto largo, modelos como Gemini demuestran potencial para mantener el rendimiento incluso con datos extensos. La introducción del marco Latent Structure Queries y las tareas detalladas dentro de Michelangelo por parte del equipo de investigación amplían los límites de la medición de la comprensión de contexto largo y resaltan los desafíos y las oportunidades en el avance de las capacidades de razonamiento de la IA.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)