Descubriendo la memoria de Schrödinger: mecanismos de memoria dinámica en modelos de lenguaje basados en transformadores

Los LLM exhiben habilidades lingüísticas notables, lo que plantea interrogantes sobre sus mecanismos de memoria. A diferencia de los humanos, que utilizan la memoria para las tareas diarias, la “memoria” de los LLM se deriva de la información recibida en lugar de almacenarse externamente. Los esfuerzos de investigación han apuntado a mejorar la retención de los LLM ampliando la longitud del contexto e incorporando sistemas de memoria externa. Sin embargo, estos métodos no aclaran por completo cómo funciona la memoria dentro de estos modelos. El suministro ocasional de información obsoleta por parte de los LLM indica una forma de memoria, aunque su naturaleza precisa no está clara. Comprender en qué se diferencia la memoria de los LLM de la memoria humana es esencial para avanzar en la investigación de la IA y sus aplicaciones.

Los investigadores de la Universidad Politécnica de Hong Kong utilizan el Teorema de Aproximación Universal (TAU) para explicar la memoria en los LLM. Proponen que la memoria LLM, denominada “memoria de Schrödinger”, solo es observable cuando se le pregunta, ya que su presencia permanece indeterminada de lo contrario. Utilizando el TAU, sostienen que los LLM se aproximan dinámicamente a la información pasada en función de las señales de entrada, de forma similar a la memoria. Su estudio presenta un nuevo método para evaluar las capacidades de memoria de los LLM y compara la memoria y las capacidades de razonamiento de los LLM con las de los humanos, destacando tanto las similitudes como las diferencias. El estudio también proporciona evidencia teórica y experimental que respalda las capacidades de memoria de los LLM.

La UAT constituye la base del aprendizaje profundo y explica la memoria en los LLM basados en Transformers. La UAT muestra que las redes neuronales pueden aproximarse a cualquier función continua. En los modelos Transformer, este principio se aplica de forma dinámica en función de los datos de entrada. Las capas de Transformer ajustan sus parámetros a medida que procesan la información, lo que permite que el modelo ajuste funciones en respuesta a diferentes entradas. Específicamente, el mecanismo de atención de múltiples cabezas modifica los parámetros para manejar y retener la información de manera efectiva. Este ajuste dinámico permite que los LLM exhiban capacidades similares a la memoria, lo que les permite recordar y utilizar detalles pasados al responder consultas.

El estudio explora las capacidades de memoria de los LLM. En primer lugar, define la memoria como algo que requiere tanto de entrada como de salida: la memoria se activa con la entrada, y la salida puede ser correcta, incorrecta u olvidada. Los LLM exhiben memoria al ajustar la entrada a una salida correspondiente, de manera muy similar a la memoria humana. Los experimentos que utilizaron conjuntos de datos de poemas chinos e ingleses probaron la capacidad de los modelos para recitar poemas basándose en una entrada mínima. Los resultados mostraron que los modelos más grandes con mejor comprensión del lenguaje tuvieron un rendimiento significativamente mejor. Además, el texto de entrada más largo redujo la precisión de la memoria, lo que indica una correlación entre la longitud de la entrada y el rendimiento de la memoria.

El estudio sostiene que los LLM poseen capacidades de memoria y razonamiento similares a la cognición humana. Al igual que los humanos, los LLM generan dinámicamente resultados basados en el conocimiento aprendido en lugar de almacenar información fija. Los investigadores sugieren que los cerebros humanos y los LLM funcionan como modelos dinámicos que se ajustan a las entradas, fomentando la creatividad y la adaptabilidad. Las limitaciones en el razonamiento LLM se atribuyen al tamaño del modelo, la calidad de los datos y la arquitectura. El mecanismo de ajuste dinámico del cerebro, ejemplificado por casos como el de Henry Molaison, permite el aprendizaje continuo, la creatividad y la innovación, en paralelo con el potencial de los LLM para el razonamiento complejo.

En conclusión, el estudio demuestra que las memorias LLM, respaldadas por su arquitectura basada en Transformers, exhiben capacidades de memoria similares a la cognición humana. La memoria LLM, denominada “memoria de Schrödinger”, se revela solo cuando se activan entradas específicas, lo que refleja la UAT en su adaptabilidad dinámica. La investigación valida la memoria LLM a través de experimentos y la compara con la función cerebral humana, encontrando paralelismos en sus mecanismos de respuesta dinámica. El estudio sugiere que la memoria de las memorias LLM opera como la memoria humana, haciéndose evidente solo a través de consultas específicas, y explora las similitudes y diferencias entre los procesos cognitivos humanos y LLM.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)