Esta investigación de IA diagnostica problemas en modelos de lenguaje basados en RNN de redes neuronales recurrentes y los corrige para superar a los modelos basados en transformadores en tareas de secuencia larga
Las redes neuronales recurrentes fueron pioneras en el procesamiento del lenguaje natural y sentaron la piedra angular para avances futuros. Los RNN tenían una estructura simple con su memoria contextual y un tamaño de estado constante, lo que prometía la capacidad de manejar tareas de secuencia larga. Si bien teóricamente el diseño de la RNNS prometía un gran futuro en tareas de largo plazo, en la práctica los resultados estuvieron lejos de ser satisfactorios. A medida que aumentó la longitud del contexto de los RNN, el rendimiento disminuyó drásticamente. Incluso cuando examinamos los últimos modelos de lenguaje basados en SOTA RNN, como Mamba-1, el rendimiento fue pobre cuando la longitud del contexto excedió sus tokens de entrenamiento, que en la mayoría de los casos no pudieron alcanzar ni siquiera 10,000. A pesar del crecimiento lineal en el cálculo con el entrenamiento. , los RNN son incapaces de generalizarse a lo largo de la longitud de la secuencia. Muy pronto, los transformadores y los modelos basados en la atención entraron en escena, y sus variaciones avanzadas llenaron este vacío. Los modelos de lenguaje recientes basados en transformadores demostraron capacidades impresionantes para razonar en secuencias largas con miles e incluso millones de tokens. Aunque estos modelos se basaban en mecanismos de atención de escala cuadrática, se convirtieron en la prioridad debido a su rendimiento superior. Este artículo analiza las últimas investigaciones que examinan cómo las RNN alcanzaron este destino. Primero diagnosticamos por qué los RNN superaron esta carrera y analizamos más a fondo las estrategias de tratamiento.
Investigadores de la Universidad de Tsinghua presentaron su artículo para examinar los modelos de lenguaje basados en RNN y los problemas importantes que los llevan a quedarse atrás; Luego formalizaron las cuestiones e introdujeron el concepto de colapso del Estado. Además, proponen métodos de mitigación para mejorar la duración de la generalización de los RNN.
Los autores destacaron el comportamiento sin precedentes de los RNN cuando la longitud del contexto excedía los tokens de entrenamiento. Además, la investigación aportó información sobre las limitaciones de información del Estado. Hay un número limitado de tokens que una red recurrente puede recordar. Más allá de este límite, todas las fichas se olvidan, al igual que los estudiantes pueden acumular tanta información un día antes de sus exámenes de fin de semestre. Así como el desempeño deficiente en términos finales podría atribuirse a la negligencia de los estudiantes durante todo el semestre, los autores atribuyeron el fracaso de la generalización de los RNN a un fenómeno llamado colapso estatal.
Los autores inspeccionaron la distribución del estado de memoria de RNN a lo largo del tiempo y descubrieron que algunos canales atípicos dominantes con valores explosivos causaron su colapso. Cuando se normalizó la representación oculta de salida, estos valores atípicos provocaron valores que desaparecían en otros canales. Además, demostraron que el colapso del estado fue causado por la incapacidad de los RNN para olvidar el token más antiguo y la sobreparametrización del estado con una capacidad estatal excesiva, no por el aviso. Una vez finalizado el diagnóstico del colapso del estado y su causa raíz, los autores propusieron tres métodos de mitigación sin capacitación y un método basado en la capacitación continua para mejorar la generalización de la duración de los RNN. Los tres métodos sin capacitación fueron: Olvidar más y recordar menos. , Normalización de estados y ventana deslizante por diferencia de estados. Estos métodos obligaron al modelo a olvidar información contextual al reducir la retención de la memoria y la fuerza de inserción, normalizar el estado recurrente o reformular la recurrencia en un estado de ventana deslizante equivalente. Por último, propusieron entrenar en longitudes de contexto que exceden las del modelo. capacidad de estado en ingeniería de datos e inicialización de estado con retropropagación truncada a través del tiempo.
Los autores experimentaron con varios tamaños de modelos de Mamba 2 y mitigaron el colapso del estado en hasta 1 millón de tokens. También estimaron empíricamente la capacidad estatal de Mamba-2 en el modelado del lenguaje y la tarea de recuperación de claves de acceso. Cuando se aplicaron algunos trucos de ingeniería de datos e inicialización de estado a Mamba 2, mostró un rendimiento notable. El modelo Mamba-2 370M experimentado podría lograr una precisión de recuperación de clave de acceso casi perfecta en una longitud de contexto de 256 K, superando significativamente a los modelos basados en transformadores del mismo tamaño tanto en precisión de recuperación como en generalización de longitud. Este modelo en particular se convirtió en el modelo más pequeño con una precisión de recuperación de claves casi perfecta. Los autores también establecieron que la capacidad del Estado es una función lineal del tamaño del Estado.
Esta investigación muestra que el modelado de contexto largo basado en RNN tiene un potencial prometedor y, al igual que un estudiante que estudia todo el programa de estudios en una noche requiere un maestro excelente para sobresalir en los exámenes, los RNN también necesitan algo de atención y enseñanza antes y durante la capacitación. Por tanto, la inferencia está libre de error de generalización.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad
Adeeba Alam Ansari actualmente está cursando su doble titulación en el Instituto Indio de Tecnología (IIT) Kharagpur, donde obtuvo una licenciatura en Ingeniería Industrial y una maestría en Ingeniería Financiera. Con un gran interés en el aprendizaje automático y la inteligencia artificial, es una lectora ávida y una persona curiosa. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo real.
Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️