Google DeepMind presentó la autocorrección mediante aprendizaje por refuerzo (SCoRe): un nuevo método de inteligencia artificial que mejora la precisión de los modelos de lenguaje de gran tamaño en tareas matemáticas y de codificación complejas

Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) se utilizan cada vez más en dominios que requieren razonamiento complejo, como la resolución de problemas matemáticos y la codificación. Estos modelos pueden generar resultados precisos en varios dominios. Sin embargo, un aspecto crucial de su desarrollo es su capacidad de autocorregir errores sin intervención externa, la autocorrección intrínseca. Muchos LLM, a pesar de saber lo que es necesario para resolver problemas complejos, no logran recuperarlo o aplicarlo con precisión cuando es necesario, lo que da como resultado respuestas incompletas o incorrectas. La creciente importancia de la autocorrección ha llevado a los investigadores a explorar nuevos métodos para mejorar el rendimiento y la confiabilidad de los LLM en aplicaciones del mundo real.

Uno de los principales desafíos para mejorar los LLM es su incapacidad para corregir sus errores de manera consistente. Si bien los LLM pueden generar respuestas correctas en partes, necesitan ayuda para revisar las respuestas incorrectas cuando se enfrentan a errores. Los modelos actuales dependen demasiado de las instrucciones basadas en indicaciones o no logran ajustar sus respuestas de manera dinámica cuando surgen errores. Este problema es especialmente pronunciado en tareas que requieren razonamiento de varios pasos, donde la incapacidad del modelo para revisar y revisar los pasos anteriores conduce a imprecisiones acumulativas. Para abordar este problema, los investigadores están explorando técnicas que mejoran la capacidad del modelo para detectar y corregir sus errores de manera independiente, lo que mejora significativamente el desempeño en tareas que involucran razonamiento y resolución de problemas.

Se han desarrollado varios métodos para abordar este problema, pero la mayoría tienen limitaciones significativas. Muchos se basan en un ajuste fino supervisado, en el que se entrena a los LLM para que sigan patrones de corrección de respuestas anteriores. Sin embargo, este enfoque a menudo amplifica los sesgos de los datos de entrenamiento originales, lo que hace que el modelo realice correcciones mínimas o ineficaces. Otras técnicas, como el uso de múltiples modelos, emplean modelos de verificación separados para guiar las correcciones. Estos métodos son costosos desde el punto de vista computacional y pueden no ser factibles para una implementación generalizada. Además, sufren un desajuste entre los datos de entrenamiento y la distribución de consultas en el mundo real, lo que lleva a resultados subóptimos cuando se aplican en la práctica. Cada vez es más evidente la necesidad de un método que permita a los LLM autocorregirse sin supervisión externa.

Los investigadores de Google DeepMind introdujeron un nuevo enfoque llamado Autocorrección mediante aprendizaje por refuerzo (SCoRe)Este método tiene como objetivo enseñar a los LLM a mejorar sus respuestas utilizando datos autogenerados, eliminando la necesidad de supervisión externa o modelos verificadores. Al emplear aprendizaje por refuerzo (RL) multiturno, SCoRe permite que el modelo aprenda de sus respuestas y las ajuste en iteraciones posteriores. Este método reduce la dependencia de datos externos y entrena al modelo para manejar tareas del mundo real de manera más efectiva al mejorar la capacidad de autocorrección. Usando este enfoque, los investigadores abordaron el problema común del desajuste de distribución en los datos de entrenamiento, haciendo que las correcciones del modelo sean más sólidas y efectivas.

La metodología de SCoRe consta de dos etapas clave. En la primera etapa, el modelo se somete a un entrenamiento de inicialización y se optimiza para generar una estrategia de corrección inicial. Este paso ayuda al modelo a desarrollar la capacidad de realizar correcciones sustanciales sin caer en ediciones menores. En la segunda etapa, se emplea el aprendizaje de refuerzo para amplificar la capacidad de autocorrección del modelo. Esta etapa se centra en mejorar el rendimiento del modelo en un entorno de múltiples turnos, donde se lo recompensa por generar mejores correcciones en los intentos posteriores. La inclusión de la modelación de recompensas en el proceso de aprendizaje de refuerzo garantiza que el modelo se centre en mejorar la precisión en lugar de realizar cambios mínimos. La combinación de estas dos etapas mejora significativamente la capacidad del modelo para identificar y corregir errores, incluso cuando se enfrenta a consultas complejas.

Los resultados del método SCoRe demuestran una mejora significativa en el rendimiento de autocorrección de los LLM. Cuando se aplicó a los modelos Gemini 1.0 Pro y 1.5 Flash, SCoRe logró una mejora del 15,6 % en la precisión de autocorrección para tareas de razonamiento matemático del conjunto de datos MATH y una mejora del 9,1 % para tareas de codificación en el conjunto de datos HumanEval. Estas mejoras resaltan la efectividad del método en comparación con los métodos tradicionales de ajuste fino supervisado. La precisión del modelo aumentó al 60,0 % en el primer intento y al 64,4 % en el segundo intento, lo que demuestra su capacidad para revisar su respuesta inicial de manera efectiva. Estos resultados son un avance significativo, ya que los modelos existentes generalmente no logran tasas de autocorrección positivas.

Las métricas de rendimiento también subrayan el éxito de SCoRe en la reducción de la cantidad de respuestas correctas que se cambiaron a respuestas incorrectas en el segundo intento, un problema común en otros métodos de autocorrección. El modelo mejoró su tasa de corrección del 4,6 % al 5,8 % en tareas de razonamiento matemático, al tiempo que redujo los cambios de respuestas incorrectas a correctas. SCoRe mostró mejoras similares en las tareas de codificación, logrando un delta de autocorrección del 12,2 % en el punto de referencia HumanEval, lo que subraya su generalización en diferentes dominios.

En conclusión, el desarrollo de SCoRe aborda un problema de larga data en el campo de los modelos lingüísticos de gran tamaño. Los investigadores han avanzado sustancialmente en la habilitación de los modelos lingüísticos de gran tamaño para autocorregirse de manera efectiva mediante el uso del aprendizaje de refuerzo en datos autogenerados. SCoRe mejora la precisión y mejora la capacidad del modelo para manejar tareas de razonamiento complejas de varios pasos. Este enfoque marca un cambio significativo con respecto a los métodos anteriores, que dependían de la supervisión externa y sufrían desajustes de datos. El proceso de entrenamiento en dos etapas y la conformación de recompensas proporcionan un marco sólido para mejorar las capacidades de autocorrección de los modelos lingüísticos de gran tamaño, haciéndolos más confiables para aplicaciones prácticas.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)