WEBRL: un marco de aprendizaje de refuerzo curricular en línea autoevolutivo para capacitar agentes web de alto rendimiento con LLM abiertos

Los modelos de lenguaje grande (LLM) han demostrado capacidades excepcionales para comprender el lenguaje humano, el razonamiento y la adquisición de conocimientos, lo que sugiere su potencial para servir como agentes autónomos. Sin embargo, la formación de agentes web de alto rendimiento basados ​​en LLM abiertos dentro de entornos en línea, como WebArena, enfrenta varios desafíos críticos. El primer desafío es la insuficiencia de tareas de formación predefinidas en los puntos de referencia en línea. El próximo desafío es evaluar el éxito de tareas arbitrarias de navegación web debido a la escasez y el alto costo de las señales de retroalimentación. Por último, la ausencia de un conjunto de capacitación predefinido requiere exploración en línea, lo que lleva a un desvío en la distribución de políticas y a un potencial olvido catastrófico, que puede disminuir el desempeño del agente con el tiempo.

Los métodos existentes incluyen la adopción de LLM como agentes y el aprendizaje por refuerzo (RL) para LLM. La investigación actual sobre LLM como Agentes tiene dos categorías principales: enfoques sin capacitación y basados ​​en capacitación. Si bien algunos estudios han utilizado potentes LLM como GPT-4 para generar demostraciones, la precisión de estos métodos sigue siendo insuficiente para tareas complejas. Los investigadores han explorado técnicas de RL para abordar este desafío, que utilizan la toma de decisiones secuencial para controlar dispositivos e interactuar con entornos complejos. Los métodos existentes basados ​​en RL, como AgentQ, que utiliza DPO para actualizaciones de políticas y arquitecturas de actores críticos, se han mostrado prometedores en tareas complejas de control de dispositivos. Sin embargo, las señales de retroalimentación limitadas y escasas suelen ser binarias de éxito o fracaso después de múltiples rondas de interacción en tareas basadas en la web.

Investigadores de la Universidad de Tsinghua y Zhipu AI han propuesto WEBRL, un marco de RL de plan de estudios en línea autoevolutivo diseñado para capacitar agentes web de alto rendimiento utilizando LLM abiertos. Aborda los desafíos clave en la creación de agentes web LLM, incluida la escasez de tareas de capacitación, las escasas señales de retroalimentación y la deriva en la distribución de políticas en el aprendizaje en línea. Además, utiliza tres componentes clave:

  • Un plan de estudios en evolución automática que genera nuevas tareas a partir de intentos fallidos.
  • Un modelo robusto de recompensa supervisada por resultados (ORM)
  • Estrategias adaptativas de RL para garantizar mejoras consistentes.

Además, WEBRL cierra la brecha entre los agentes web abiertos y propietarios basados ​​en LLM, creando una forma de sistemas de interacción web autónomos más accesibles y potentes.

WEBRL utiliza un plan de estudios en línea que evoluciona automáticamente y aprovecha el proceso de prueba y error inherente a la exploración para abordar la escasez de tareas de capacitación de agentes web. En cada fase de entrenamiento, WEBRL genera de forma autónoma nuevas tareas a partir de intentos fallidos en la fase anterior, proporcionando una trayectoria de aprendizaje progresiva. También incorpora un término de divergencia KL entre las políticas de referencia y de actor en su algoritmo de aprendizaje para reducir el cambio en la distribución de políticas inducido por la RL basada en el currículo. Esta limitación de las actualizaciones de políticas promueve la estabilidad y evita un olvido catastrófico. Además, WEBRL implementa un búfer de reproducción de experiencias aumentado con una novedosa estrategia de filtrado de confianza del actor.

Los resultados obtenidos para Llama-3.1-8B entrenado utilizando WEBRL logran una precisión promedio del 42,4%, superando todos los enfoques de referencia, incluidas las alternativas de instrucción y entrenamiento. WEBRL destaca en tareas específicas como Gitlab (46,7%) y CMS (54,3%), mostrando su capacidad para abordar tareas web complejas de forma eficaz. Además, supera a los métodos basados ​​en el aprendizaje por imitación, como SFT y Filtered BC. Además, supera consistentemente a DigiRL, un método de vanguardia anterior que realiza actualizaciones de políticas en un conjunto fijo y predefinido de tareas, que pueden no alinearse con el nivel de habilidad actual del modelo. WEBRL aborda esto mediante el uso de un aprendizaje curricular autoevolutivo, ajustando la complejidad de la tarea en función de las capacidades del modelo, promoviendo una exploración más amplia y apoyando la mejora continua.

En este artículo, los investigadores han presentado WEBRL, un novedoso marco de RL de currículo en línea de evolución automática para capacitar a agentes web basados ​​en LLM. Aborda los desafíos críticos en la creación de agentes web LLM eficaces, incluida la escasez de tareas de capacitación, la escasez de señales de retroalimentación y la deriva en la distribución de políticas en el aprendizaje en línea. Los resultados demuestran que WEBRL permite a los agentes web basados ​​en LLM superar los enfoques de última generación existentes, incluidas las API de LLM patentadas, y estos hallazgos ayudan a mejorar las capacidades de los LLM de código abierto para tareas basadas en web, allanando el camino para Sistemas de interacción web autónomos más accesibles y potentes. La aplicación exitosa de WEBRL en diferentes arquitecturas LLM, como Llama-3.1 y GLM-4, valida la solidez y adaptabilidad del marco propuesto.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leer más
Back to top button