Exploración del aprendizaje por refuerzo en contexto en LLM con codificadores automáticos dispersos

Los modelos de lenguajes grandes (LLM) han demostrado notables capacidades de aprendizaje en contexto en varios dominios, incluida la traducción, el aprendizaje funcional y el aprendizaje por refuerzo. Sin embargo, los mecanismos subyacentes de estas habilidades, particularmente en el aprendizaje por refuerzo (RL), siguen siendo poco conocidos. Los investigadores están intentando desentrañar cómo los LLM aprenden a generar acciones que maximicen futuras recompensas con descuento mediante prueba y error, dada solo una señal de recompensa escalar. El desafío central radica en comprender cómo los LLM implementan el aprendizaje de diferencia temporal (TD), un concepto fundamental en RL que implica actualizar las creencias de valor en función de la diferencia entre las recompensas esperadas y reales.

Investigaciones anteriores han explorado el aprendizaje en contexto desde una perspectiva mecanicista, demostrando que los transformadores pueden descubrir algoritmos existentes sin una guía explícita. Los estudios han demostrado que los transformadores pueden implementar varios métodos de aprendizaje por refuerzo y regresión en contexto. Se han utilizado con éxito codificadores automáticos dispersos para descomponer las activaciones de modelos de lenguaje en características interpretables, identificando conceptos tanto concretos como abstractos. Varios estudios han investigado la integración del aprendizaje por refuerzo y modelos de lenguaje para mejorar el desempeño en diversas tareas. Esta investigación contribuye al campo enfocándose en comprender los mecanismos a través de los cuales los grandes modelos lingüísticos implementan el aprendizaje por refuerzo, basándose en la literatura existente sobre el aprendizaje en contexto y la interpretabilidad de los modelos.

Investigadores del Instituto de IA centrada en el ser humano, el Centro de salud computacional Helmholtz y el Instituto Max Planck de Cibernética Biológica han empleado codificadores automáticos dispersos (SAE) para analizar las representaciones que respaldan el aprendizaje en contexto en entornos de realidad virtual. Este enfoque ha demostrado ser exitoso en la construcción de una comprensión mecanicista de las redes neuronales y sus representaciones. Estudios anteriores han aplicado SAE a varios aspectos del análisis de redes neuronales, demostrando su eficacia para descubrir mecanismos subyacentes. Al utilizar SAE para estudiar RL en contexto en Llama 3 70B, los investigadores pretenden investigar y manipular sistemáticamente los procesos de aprendizaje del modelo. Este método permite identificar representaciones similares a errores TD y valores Q en múltiples tareas, lo que proporciona información sobre cómo los LLM implementan algoritmos RL a través de la predicción del siguiente token.

Los investigadores desarrollaron una metodología para analizar el aprendizaje por refuerzo en contexto en Llama 3 70B utilizando SAE. Diseñaron un proceso de decisión de Markov simple inspirado en la tarea de dos pasos, donde Llama tenía que tomar decisiones secuenciales para maximizar las recompensas. El rendimiento del modelo se evaluó a través de 100 experimentos independientes, cada uno de los cuales constaba de 30 episodios. Se capacitó a los SAE en las salidas de flujo residual de los bloques transformadores de Llama, utilizando variaciones de la tarea de dos pasos para crear un conjunto de capacitación diverso. Este enfoque permitió a los investigadores descubrir representaciones similares a los errores TD y los valores Q, proporcionando información sobre cómo Llama implementa algoritmos RL a través de la predicción del siguiente token.

Los investigadores ampliaron su análisis a una tarea más compleja de navegación en cuadrícula de 5×5, donde Llama predijo las acciones de los agentes de Q-learning. Descubrieron que Llama mejoró sus predicciones de acciones con el tiempo, especialmente cuando se les proporcionó información de recompensa correcta. Los SAE entrenados en las representaciones del flujo residual de Llama revelaron latentes altamente correlacionadas con los valores Q y los errores TD del agente generador. Desactivar o bloquear estos latentes de TD degradó significativamente la capacidad de predicción de acciones de Llama y redujo las correlaciones con los valores Q y los errores de TD. Estos hallazgos apoyan aún más la hipótesis de que las representaciones internas de Llama codifican cálculos similares al aprendizaje por refuerzo, incluso en entornos más complejos con espacios de estado y acción más grandes.

Los investigadores investigan la capacidad de Llama para aprender estructuras gráficas sin recompensas, utilizando un concepto llamado Representación Sucesora (SR). Le solicitaron a Llama observaciones de una caminata aleatoria en un gráfico comunitario latente. Los resultados mostraron que Llama aprendió rápidamente a predecir el siguiente estado con alta precisión y desarrolló representaciones similares al SR, capturando la geometría global del gráfico. El análisis disperso del codificador automático reveló correlaciones más fuertes con SR y errores TD asociados que con alternativas basadas en modelos. La desactivación de latentes TD clave afectó la precisión de la predicción de Llama e interrumpió sus representaciones gráficas aprendidas, lo que demuestra el papel causal de los cálculos similares a TD en la capacidad de Llama para aprender conocimiento estructural.

Este estudio proporciona evidencia de que los modelos de lenguaje grande (LLM) implementan el aprendizaje por diferencia temporal (TD) para resolver problemas de aprendizaje por refuerzo en contexto. Mediante el uso de codificadores automáticos dispersos, los investigadores identificaron y manipularon características cruciales para el aprendizaje en contexto, demostrando su impacto en el comportamiento y las representaciones de LLM. Este enfoque abre vías para estudiar diversas habilidades de aprendizaje en contexto y establece una conexión entre los mecanismos de aprendizaje LLM y los observados en agentes biológicos, los cuales implementan cálculos TD en escenarios similares.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.