SEAL: un marco de codificador dual que mejora el aprendizaje de imitación jerárquico con representaciones de subobjetivos guiadas por LLM

El aprendizaje por imitación jerárquico (HIL) aborda la toma de decisiones a largo plazo al dividir las tareas en submetas, pero enfrenta desafíos como etiquetas de supervisión limitadas y la necesidad de demostraciones extensas de expertos. Los LLM, como GPT-4, ofrecen mejoras prometedoras debido a su comprensión semántica, razonamiento y capacidad para interpretar instrucciones del lenguaje. Al integrar los LLM, los agentes que toman decisiones pueden mejorar el aprendizaje de subobjetivos. Sin embargo, los enfoques existentes todavía necesitan ayuda con actualizaciones dinámicas de tareas y requieren planes de alto nivel que dependen de agentes de políticas de bajo nivel. Esto plantea la cuestión de si los LLM previamente capacitados pueden definir de forma autónoma jerarquías de tareas y guiar de manera efectiva tanto el aprendizaje de subobjetivos como de agentes.

El aprendizaje por imitación (IL) consiste en clonación conductual (BC) y aprendizaje por refuerzo inverso (IRL). BC utiliza datos de expertos recopilados previamente para el aprendizaje fuera de línea, pero enfrenta problemas con errores compuestos cuando encuentra estados invisibles. Por el contrario, IRL implica interactuar con el entorno para inferir la función de recompensa del experto, pero requiere más recursos. HIL mejora la IL al descomponer las tareas en submetas. Los LLM también se utilizan para dividir tareas complejas en planes de alto nivel, lo que ayuda tanto a la identificación de subobjetivos como al aprendizaje activo de bajo nivel, aunque todavía dependen de planificadores de bajo nivel para su ejecución.

Investigadores de la Universidad de Alberta y una destacada institución de Hong Kong especializada en ciencia y tecnología han desarrollado SEAL, un nuevo marco de aprendizaje de imitación jerárquico que utiliza LLM para generar submetas semánticamente significativas y estados de preetiquetado sin necesidad de conocimientos previos de las jerarquías de tareas. . SEAL presenta un sistema de codificador dual que combina el aprendizaje supervisado guiado por LLM con la cuantificación vectorial (VQ) no supervisada para una representación sólida de subobjetivos. También incluye un planificador de bajo nivel mejorado con transiciones para gestionar las transiciones de subobjetivos de manera efectiva. Los experimentos muestran que SEAL supera los métodos HIL existentes, particularmente en tareas complejas con conjuntos de datos expertos limitados.

SEAL presenta un método para HIL que utiliza LLM previamente capacitados para generar etiquetas de subobjetivos, reemplazando costosas anotaciones humanas. SEAL extrae planes de subobjetivos de alto nivel de las instrucciones de tareas y asigna estados en demostraciones de expertos a estos subobjetivos. Un enfoque de codificador dual combina etiquetas generadas por LLM supervisadas y cuantificación vectorial (VQ) no supervisada para un aprendizaje sólido de subobjetivos. Además, el modelo mejora la capacitación en políticas de bajo nivel al enfatizar las transiciones entre submetas. El marco SEAL adapta continuamente sus codificadores de subobjetivos de alto nivel y políticas de bajo nivel para mejorar la toma de decisiones y el desempeño general de las tareas.

El estudio evalúa la eficacia del modelo SEAL en dos tareas de composición de largo horizonte, KeyDoor y Grid-World. Lo compara con varios métodos de referencia, incluido el aprendizaje por imitación jerárquico no jerárquico, no supervisado y supervisado. La tarea KeyDoor es más simple y presenta una cuadrícula de 10 × 10 donde el jugador debe obtener una llave para abrir una puerta. Por el contrario, Grid-World requiere la colección de objetos en un orden predeterminado. Los hallazgos indican que SEAL supera consistentemente a la mayoría de los modelos básicos, principalmente debido a su arquitectura de codificador dual, que mejora el logro de subobjetivos y transiciones suaves, incluso en escenarios complejos que involucran múltiples subobjetivos.

En conclusión, SEAL es un marco HIL innovador que utiliza el conocimiento semántico y mundial de los LLM para crear representaciones significativas de subobjetivos sin necesidad de conocimiento previo de la jerarquía de tareas. SEAL supera varios métodos básicos, incluidos BC, LISA, SDIL y TC, particularmente en tareas complejas a largo plazo con demostraciones limitadas de expertos. Su arquitectura de codificador dual mejora la solidez en comparación con un codificador LLM estándar, y el planificador de bajo nivel aumentado por transición ayuda a gestionar las transiciones de subobjetivos de manera efectiva. Si bien SEAL se muestra muy prometedor, todavía enfrenta desafíos con la estabilidad del entrenamiento y apunta a mejorar la eficiencia en estados parcialmente observados.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos GenAI (promovida)

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos de GenAI: únase a más de 300 ejecutivos de GenAI de Bayer, Microsoft, Flagship Pioneering, para aprender cómo crear una búsqueda de IA rápida y precisa en el almacenamiento de objetos. (Promovido)