GaLiTe y AGaLiTe: alternativas de transformadores eficientes para el aprendizaje por refuerzo en línea parcialmente observable

En entornos del mundo real, los agentes a menudo enfrentan una visibilidad limitada del entorno, lo que complica la toma de decisiones. Por ejemplo, un agente que conduce un automóvil debe recordar las señales de tránsito de momentos anteriores para ajustar su velocidad, pero almacenar todas las observaciones no es escalable debido a los límites de memoria. En cambio, los agentes deben aprender representaciones comprimidas de observaciones. Este desafío se agrava en las tareas en curso, donde la información pasada esencial sólo a veces puede retenerse de manera eficiente. La construcción de estados incrementales es clave en el aprendizaje por refuerzo en línea (RL) parcialmente observable, donde las redes neuronales recurrentes (RNN) como los LSTM manejan secuencias de manera efectiva, aunque son difíciles de entrenar. Los transformadores capturan dependencias a largo plazo pero conllevan costos computacionales más altos.

Varios enfoques han ampliado los transformadores lineales para abordar sus limitaciones en el manejo de datos secuenciales. Una arquitectura utiliza un método de activación escalar para acumular valores a lo largo del tiempo, mientras que otras agregan actualizaciones recurrentes y no lineales para mejorar el aprendizaje a partir de dependencias secuenciales, aunque esto puede reducir la eficiencia de la paralelización. Además, algunos modelos calculan selectivamente la atención escasa o almacenan en caché las activaciones anteriores, lo que les permite atender secuencias más largas sin un costo de memoria significativo. Otras innovaciones recientes reducen la complejidad de la autoatención, mejorando la capacidad de los transformadores para procesar contextos largos de manera eficiente. Aunque los transformadores se utilizan comúnmente en el aprendizaje por refuerzo fuera de línea, su aplicación en entornos sin modelos aún está emergiendo.

Investigadores de la Universidad de Alberta y Amii desarrollaron dos nuevas arquitecturas de transformadores diseñadas para el aprendizaje por refuerzo en línea parcialmente observable, abordando problemas con altos costos de inferencia y demandas de memoria típicas de los transformadores tradicionales. Sus modelos propuestos, GaLiTe y AGaLiTe, implementan un mecanismo de autoatención cerrado para administrar y actualizar la información de manera eficiente, proporcionando un costo de inferencia independiente del contexto y un rendimiento mejorado en dependencias de largo alcance. Las pruebas en entornos 2D y 3D, como T-Maze y Craftax, mostraron que estos modelos superaron o igualaron al GTrXL de última generación, reduciendo la memoria y la computación en más del 40%, y AGaLiTe logró un rendimiento hasta un 37% mejor en entornos complejos. tareas.

El transformador lineal cerrado (GaLiTe) mejora los transformadores lineales al abordar limitaciones clave, en particular la falta de mecanismos para eliminar información obsoleta y la dependencia de la elección del mapa de características del núcleo. GaLiTe introduce un mecanismo de activación para controlar el flujo de información, lo que permite la retención selectiva de memoria y un mapa de características parametrizado para calcular vectores clave y de consulta sin necesidad de funciones específicas del núcleo. Para mayor eficiencia, el transformador lineal cerrado aproximado (AGaLiTe) utiliza una aproximación de rango bajo para reducir las demandas de memoria, almacenando estados recurrentes como vectores en lugar de matrices. Este enfoque logra importantes ahorros de espacio y tiempo en comparación con otras arquitecturas, especialmente en tareas complejas de aprendizaje por refuerzo.

El estudio evalúa el modelo AGaLiTe propuesto en varias tareas de RL parcialmente observables. En estos entornos, los agentes requieren memoria para manejar diferentes niveles de observabilidad parcial, como recordar señales únicas en T-Maze, integrar información a lo largo del tiempo en CartPole o navegar a través de entornos complejos como Mystery Path, Craftax y Memory Maze. AGaLiTe, equipado con un mecanismo optimizado de autoatención, logra un alto rendimiento, superando a los modelos tradicionales como GTrXL y GRU en efectividad y eficiencia computacional. Los resultados indican que el diseño de AGaLiTe reduce significativamente las operaciones y el uso de memoria, ofreciendo ventajas para tareas de RL con amplios requisitos de contexto.

En conclusión, los Transformers son muy eficaces para el procesamiento de datos secuenciales, pero enfrentan limitaciones en el aprendizaje por refuerzo en línea debido a las altas demandas computacionales y la necesidad de mantener todos los datos históricos para la autoatención. Este estudio presenta dos alternativas eficientes a la autoatención del transformador, GaLiTe y AGaLiTe, que son recurrentes y están diseñadas para tareas RL parcialmente observables. Ambos modelos funcionan de manera competitiva o mejor que GTrXL, con costos de inferencia un 40 % más bajos y un uso de memoria reducido en más del 50 %. Las investigaciones futuras pueden mejorar AGaLiTe con actualizaciones de aprendizaje en tiempo real y aplicaciones en enfoques de RL basados en modelos como Dreamer V3.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias– Del marco a la producción

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🐝🐝 Próximo evento en vivo de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.