Efectividad de la capacitación en el momento de los exámenes para mejorar el rendimiento del modelo de lenguaje en tareas de abstracción y razonamiento

Los modelos de lenguaje neuronal (LM) a gran escala se destacan en la realización de tareas similares a sus datos de entrenamiento y variaciones básicas de esas tareas. Sin embargo, es necesario aclarar si los LM pueden resolver nuevos problemas que impliquen razonamiento, planificación o manipulación de cadenas no triviales que difieran de sus datos previos al entrenamiento. Esta pregunta es fundamental para comprender las nuevas capacidades de adquisición de habilidades de los sistemas de IA actuales, que se han propuesto como una medida clave de la inteligencia. Es difícil obtener una respuesta correcta para tareas complejas y novedosas simplemente tomando muestras de un LM. Investigaciones recientes han demostrado que el rendimiento de LM se puede mejorar aumentando el proceso de decodificación de LM con cálculos adicionales del tiempo de prueba, pero también plantean algunos desafíos.

Se han desarrollado enfoques existentes para aumentar los LM y mejorar su desempeño en tareas complejas y novedosas. Una de esas estrategias es el entrenamiento en el momento de la prueba (TTT), en el que los modelos se actualizan a través de pasos de gradiente explícitos basados ​​en entradas en el momento de la prueba. Este método se diferencia del ajuste fino estándar en que opera en un régimen de datos extremadamente bajos utilizando un objetivo no supervisado en una sola entrada o un objetivo supervisado aplicado a uno o dos ejemplos etiquetados en contexto. Sin embargo, el espacio de diseño para los enfoques TTT es grande y existe una comprensión limitada de las opciones de diseño que son más efectivas para los modelos de lenguaje y el aprendizaje de tareas novedosas. Otro método es BARC, que combina enfoques de síntesis neuronal y de programas, logrando una precisión del 54,4% en una tarea de referencia.

Investigadores del Instituto Tecnológico de Massachusetts han propuesto un enfoque que investiga la eficacia del TTT para mejorar las capacidades de razonamiento de los modelos lingüísticos. El Corpus de Abstracción y Razonamiento (ARC) se utiliza como punto de referencia para experimentar con TTT. Los tres componentes cruciales para el éxito del TTT proporcionados en este documento son el ajuste inicial de tareas similares, el formato y los aumentos de las tareas auxiliares, y la capacitación por instancia. Además, los investigadores descubrieron que TTT mejora significativamente el rendimiento en las tareas ARC, logrando una mejora de hasta 6 veces en la precisión en comparación con los modelos base ajustados. Al aplicar TTT a un modelo de lenguaje de parámetros 8B, se logra una precisión del 53 % en el conjunto de validación pública de ARC, lo que mejora el estado del arte en casi un 25 % para enfoques públicos y puramente neuronales.

Para investigar el impacto de cada componente TTT, se utilizan un LM de parámetro 8B de los modelos Llama-3 y modelos 1B y 3B de Llama-3.2 durante la arquitectura y optimización del modelo. La adaptación de rango bajo (LoRA) se utiliza para un entrenamiento en tiempo de prueba eficiente en parámetros, inicializando un conjunto separado de parámetros LoRA para cada tarea y entrenándolos en el conjunto de datos DTTT. Durante la evaluación eficiente de datos y formato, se seleccionan aleatoriamente 80 tareas ARC equilibradas del conjunto de validación ARC, incluidas 20 tareas fáciles, 20 medianas, 20 difíciles y 20 expertas. Además, la DTTT está limitada a 250 ejemplos por tarea. Con esta configuración, todo el proceso de inferencia y TTT tarda aproximadamente 12 horas para 100 tareas de validación muestreadas aleatoriamente cuando se utiliza una GPU NVIDIA-A100.

La implementación principal de TTT se compara con varias líneas de base, incluidos modelos ajustados sin TTT (FT), datos de extremo a extremo (datos E2E) y enfoques TTT compartidos. Los resultados muestran que su método TTT es muy eficaz y mejora la precisión del modelo ajustado aproximadamente 6 veces (del 5 % al 29 %). La estructura de la tarea auxiliar tiene un impacto significativo en la efectividad del TTT, ya que las tareas de aprendizaje en contexto superan a las tareas de un extremo a otro, lo que resulta en una caída relativa del rendimiento de 11 tareas (38%). Además, la eliminación de múltiples componentes de la optimización TTT revela que aprender un único adaptador LoRA en todas las tareas reduce el rendimiento en 7 tareas (24%), mientras que enfrentar una pérdida en las demostraciones de salida mejora marginalmente el rendimiento (del 26% al 29%).

En conclusión, los investigadores investigaron el entrenamiento en tiempo de prueba (TTT) y demostraron que puede mejorar significativamente el rendimiento de LM en el popular conjunto de datos ARC. Los investigadores también desarrollan un proceso de inferencia aumentada que utiliza transformaciones invertibles para generar múltiples predicciones y luego emplea la autoconsistencia para seleccionar a los mejores candidatos. Esta canalización aplica múltiples métodos de cálculo en tiempo de prueba, y cada componente contribuye positivamente. Además, el canal TTT combinado con BARC logra resultados de última generación en el conjunto público de ARC y tiene un rendimiento comparable al de un ser humano promedio. Estos hallazgos sugieren que los métodos de tiempo de prueba podrían desempeñar un papel importante en el avance de la próxima generación de LM.


Mira el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

🐝🐝 Próximo evento en vivo de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.

Leer más
Back to top button