MAGICORE: Un marco de IA para la iteración de múltiples agentes para el refinamiento de grueso a fino

Las estrategias de agregación en tiempo de prueba, como generar y combinar múltiples respuestas, pueden mejorar el desempeño de los LLM, pero con el tiempo tienen rendimientos decrecientes. El refinamiento, en el que se utiliza la retroalimentación del modelo para mejorar las respuestas de manera iterativa, presenta una alternativa. Sin embargo, enfrenta tres desafíos: (1) refinamiento excesivo, que puede llevar a una corrección excesiva y una precisión reducida; (2) dificultad para identificar y abordar errores específicos, ya que los LLM tienen dificultades con la autocorrección dirigida; y (3) determinar la cantidad correcta de refinamiento, ya que un refinamiento insuficiente puede dejar errores sin resolver mientras que las iteraciones excesivas desperdician recursos computacionales.

Los investigadores de la UNC-Chapel Hill presentaron MAGICORE, un marco para la iteración de múltiples agentes para el refinamiento grueso a fino. MAGICORE aborda el refinamiento excesivo clasificando los problemas como fáciles o difíciles, resolviendo los fáciles con agregación gruesa y los difíciles con refinamiento fino e iterativo de múltiples agentes. El sistema utiliza tres agentes (Solver, Reviewer y Refiner) mejorados por puntajes de modelo de recompensa (RM) escalonados para la localización de errores y la retroalimentación. MAGICORE supera a métodos como Self-Refine y Best-of-k en múltiples conjuntos de datos de razonamiento matemático, con importantes ganancias de rendimiento incluso después de una iteración. Sigue mejorando con más iteraciones, lo que resalta su eficiencia y capacidades de refinamiento.

MAGICORE mejora el razonamiento mediante la colaboración entre múltiples agentes y el refinamiento de lo grueso a lo fino. Mientras que la autoconsistencia (SC) genera múltiples soluciones y selecciona la respuesta más frecuente, MAGICORE utiliza RM externos para guiar el refinamiento, evitando las limitaciones de SC. A diferencia de los métodos anteriores que se basaban en la autoverificación LLM, MAGICORE utiliza RM para identificar errores y refinar las respuestas de manera efectiva. Emplea un sistema multiagente, donde los agentes asumen roles distintos (solucionador, revisor y refinador) para mejorar las soluciones de manera iterativa. Este enfoque evita el refinamiento excesivo o insuficiente y mejora el rendimiento en varias tareas, superando los métodos de agregación y las técnicas de autoevaluación basadas en LLM.

MAGICORE es un marco adaptativo diseñado para mejorar el rendimiento y la eficiencia del razonamiento de múltiples pasos en los LLM mediante el uso de agregación y refinamiento inteligentes en tiempo de prueba. Clasifica los problemas como fáciles o difíciles, aplicando agregación gruesa para tareas más simples y refinamiento multiagente iterativo de grano fino para las más complejas. El marco utiliza dos modelos de recompensa: un modelo de recompensa de resultado (ORM) para la calidad general de la solución y un modelo de recompensa de proceso (PRM) para la precisión paso a paso. MAGICORE emplea tres agentes (el solucionador, el revisor y el refinador) para generar, evaluar y mejorar las soluciones de forma iterativa hasta que se obtengan respuestas óptimas. Este enfoque evita el refinamiento excesivo, mejora la localización de errores y garantiza una mejora completa de la solución.

MAGICORE supera todos los métodos de referencia después de una sola iteración, demostrando una mejora del 3,2 % sobre Best-of-120 en Llama-3-8B mientras se utiliza la mitad de las muestras. En comparación con Self-Refine y Self-Refine with Self-Consistency, MAGICORE muestra ganancias significativas de hasta un 17,1 % en Llama-3-8B y un 5,4 % sobre las líneas base combinadas. MAGICORE continúa mejorando la precisión a medida que aumentan las iteraciones, estabilizándose en un 75,6 %, a diferencia de las líneas base fluctuantes. Además, MAGICORE utiliza de manera eficiente menos muestras, evita la sobrecorrección a través del refinamiento selectivo y se beneficia de su configuración de múltiples agentes. Las funciones separadas para Revisor y Refinador mejoran aún más el rendimiento, lo que resalta la estrategia de refinamiento adaptativo eficaz de MAGICORE.

MAGICORE asigna recursos computacionales de manera adaptativa a problemas desafiantes, utilizando un refinamiento selectivo para los casos más difíciles. Aborda el refinamiento excesivo, las limitaciones de los LLM en la detección de errores y el refinamiento insuficiente. Al combinar modelos de recompensa globales y locales, MAGICORE determina qué problemas necesitan refinamiento y utiliza retroalimentación iterativa para mejorar la precisión. Probado en conjuntos de datos matemáticos y dos modelos, MAGICORE supera consistentemente a los métodos de referencia, incluso aquellos con mayores demandas computacionales. A diferencia de las estrategias tradicionales que se estancan, el rendimiento de MAGICORE mejora con iteraciones adicionales, lo que resalta la importancia del refinamiento selectivo y la comunicación entre múltiples agentes para mejorar las capacidades de resolución de problemas.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)