Desentrañando la optimización del transformador: una explicación basada en Hesse para la superioridad de Adam sobre SGD

Los modelos de lenguajes grandes (LLM) basados en arquitecturas Transformer han revolucionado el desarrollo de la IA. Sin embargo, la complejidad de su proceso de formación sigue siendo poco comprendida. Un desafío importante en este ámbito es la inconsistencia en el rendimiento del optimizador. Si bien el optimizador Adam se ha convertido en el estándar para entrenar Transformers, el descenso de gradiente estocástico con impulso (SGD), que es muy eficaz para redes neuronales convolucionales (CNN), funciona peor en los modelos Transformer. Esta brecha de desempeño plantea un desafío para los investigadores. Resolver este misterio podría mejorar la comprensión teórica del entrenamiento de Transformers y las redes neuronales, lo que podría conducir a métodos de entrenamiento más eficientes.

Las investigaciones existentes incluyen varias hipótesis para explicar el pobre desempeño de SGD en Transformers en comparación con Adam. Una teoría sugiere que el SGD lucha con el ruido estocástico de cola pesada en las tareas lingüísticas. Los esfuerzos por comprender la eficacia de Adam han llevado a análisis de convergencia para varios métodos de gradiente adaptativo. Estudios recientes han explorado el análisis del espectro de Hesse para MLP y CNN, identificando patrones característicos “masivos” y “atípicos”. Las dificultades del entrenamiento de transformadores se han atribuido a varios fenómenos, incluida la divergencia logits, la degeneración de rango en las capas de atención, el crecimiento de la norma de parámetros, la dependencia excesiva de las ramas de residuos y los impactos negativos de la normalización de las capas.

Investigadores de la Universidad China de Hong Kong, Shenzhen, China, y el Instituto de Investigación de Big Data de Shenzhen explicaron la disparidad de rendimiento entre SGD y Adam en el entrenamiento de Transformers. Su enfoque se centra en analizar el espectro de Hesse de estos modelos y el concepto de “heterogeneidad de bloques”, que se refiere a la variación significativa en los espectros de Hesse entre diferentes bloques de parámetros en Transformers. Además, se presenta la hipótesis de que esta heterogeneidad es un factor clave en el bajo rendimiento del SGD. Los resultados experimentales en varias arquitecturas de redes neuronales y problemas cuadráticos muestran que el rendimiento de SGD es comparable al de Adam en problemas sin heterogeneidad de bloques, pero se deteriora cuando hay heterogeneidad presente.

El método propuesto utiliza el método Stochastic Lanczos Quadrature (SLQ) para aproximar el espectro de Hesse de redes neuronales a gran escala, que de otro modo serían demasiado complejas para calcular y almacenar. SLQ aproxima los histogramas de valores propios mediante curvas suaves y esta técnica se aplica para analizar varios modelos, incluidos CNN (ResNet18 y VGG16) y Transformers (GPT2, ViT-base, BERT y GPT2-nano) en diferentes tareas y modalidades. Para cada modelo se evalúa el espectro de Hesse completo y el espectro de Hesse en bloques. Los bloques de parámetros se dividieron según la partición predeterminada en la implementación de PyTorch, como la capa de incrustación, consulta, clave y valor en las capas de atención.

Los resultados muestran un contraste en los espectros de Hesse entre los modelos Transformer y las CNN. En Transformers como BERT, los espectros de Hesse exhiben variaciones significativas entre diferentes bloques de parámetros, como incrustación, atención y capas MLP. Este fenómeno, denominado “heterogeneidad de bloques”, se observa consistentemente en todos los modelos Transformer examinados. Por otro lado, las CNN como VGG16 muestran “homogeneidad de bloques”, con espectros de Hesse similares en todas las capas convolucionales. Estas diferencias se cuantifican utilizando la distancia de Jensen-Shannon entre densidades de valores propios de pares de bloques. Esta heterogeneidad de bloques en Transformers se correlaciona fuertemente con la brecha de rendimiento entre los optimizadores SGD y Adam.

En este artículo, los investigadores exploraron las razones subyacentes del bajo rendimiento de SGD en comparación con Adam en el entrenamiento de modelos Transformer. Se introduce el concepto de “heterogeneidad de bloques” en el espectro de Hesse y se establece una fuerte correlación entre este fenómeno y la brecha de desempeño entre Adam y SGD. El estudio proporciona evidencia convincente de que la “heterogeneidad de bloques”, que prevalece en Transformers pero no en CNN, afecta significativamente el rendimiento del optimizador. Además, el desempeño de SGD no es bueno en presencia de “heterogeneidad de bloques”, mientras que Adam sigue siendo efectivo. Este trabajo ofrece información clave sobre la dinámica de optimización de las arquitecturas de redes neuronales y allana el camino para algoritmos de entrenamiento más eficientes para Transformers y modelos heterogéneos.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de 52k+ ML.

Estamos invitando a startups, empresas e instituciones de investigación que estén trabajando en modelos de lenguajes pequeños a participar en este próximo Revista/Informe ‘Small Language Models’ de Marketchpost.com. Esta revista/informe se publicará a finales de octubre o principios de noviembre de 2024. ¡Haga clic aquí para programar una llamada!

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.