ADOPTAR: Un método de gradiente adaptativo universal para una convergencia confiable sin ajuste de hiperparámetros
Adam se utiliza ampliamente en el aprendizaje profundo como algoritmo de optimización adaptativo, pero tiene dificultades con la convergencia a menos que el hiperparámetro β2 se ajuste en función del problema específico. Los intentos de solucionar este problema, como AMSGrad, requieren la suposición poco práctica de un ruido de gradiente uniformemente acotado, que no se cumple en los casos con ruido gaussiano, como se ve en los codificadores automáticos variacionales y los modelos de difusión. Otros métodos, como AdaShift, abordan la convergencia en escenarios limitados pero no son efectivos para problemas generales. Estudios recientes sugieren que Adam puede converger ajustando β2 por tarea, aunque este enfoque es complejo y específico del problema, lo que justifica una mayor exploración en busca de soluciones universales.
Investigadores de la Universidad de Tokio presentaron ADOPT. Este nuevo método de gradiente adaptativo logra una convergencia óptima a una tasa O(1/√T) sin requerir elecciones específicas para β2 o el supuesto de ruido acotado. ADOPT aborda la no convergencia de Adam excluyendo el gradiente actual de la estimación del segundo momento y ajustando el orden de las actualizaciones de impulso y normalización. Los experimentos en diversas tareas, como clasificación de imágenes, modelado generativo, procesamiento del lenguaje y aprendizaje por refuerzo, muestran el rendimiento superior de ADOPT sobre Adam y sus variantes. El método también converge de manera confiable en casos desafiantes, incluidos escenarios en los que Adam y AMSGrad tienen dificultades.
Este estudio se centra en minimizar una función objetivo que depende de un vector de parámetros mediante el uso de métodos de optimización estocástica de primer orden. En lugar de trabajar con el gradiente exacto, se basan en una estimación conocida como gradiente estocástico. Dado que la función puede ser no convexa, el objetivo es encontrar un punto estacionario donde el gradiente sea cero. Los análisis estándar de convergencia en esta área generalmente parten de varios supuestos clave: la función tiene un límite mínimo, el gradiente estocástico proporciona una estimación insesgada del gradiente, la función cambia suavemente y la varianza del gradiente estocástico es uniformemente limitada. Para métodos adaptativos como Adam, a menudo se hace una suposición adicional sobre la varianza del gradiente para simplificar las pruebas de convergencia. Los investigadores aplican un conjunto de suposiciones para investigar cómo convergen los métodos de gradiente adaptativo sin depender de la suposición más estricta de que el ruido del gradiente permanece limitado.
Investigaciones anteriores sugieren que, si bien el descenso de gradiente estocástico básico a menudo converge en entornos no convexos, los métodos de gradiente adaptativo como Adam se utilizan ampliamente en el aprendizaje profundo debido a su flexibilidad. Sin embargo, Adam a veces necesita converger, especialmente en casos convexos. Para abordar esto se desarrolló una versión modificada llamada AMSGrad, que introduce una escala no decreciente de la tasa de aprendizaje al actualizar la estimación del segundo momento con una función máxima. Aún así, la convergencia de AMSGrad se basa en la suposición más sólida de un ruido de gradiente uniformemente acotado, que no es válido en todos los escenarios, como en ciertos modelos generativos. Por lo tanto, los investigadores proponen un nuevo enfoque de actualización de gradiente adaptativo que tiene como objetivo garantizar una convergencia confiable sin depender de suposiciones estrictas sobre el ruido de gradiente, abordando las limitaciones de Adam con respecto a la convergencia y optimizando las dependencias de los parámetros.
El algoritmo ADOPT se evalúa en varias tareas para verificar su rendimiento y solidez en comparación con Adam y AMSGrad. Comenzando con un problema de juguete, ADOPT converge exitosamente donde Adam no lo hace, especialmente en condiciones de ruido de alto gradiente. Las pruebas con un MLP en el conjunto de datos MNIST y un ResNet en CIFAR-10 muestran que ADOPT logra una convergencia más rápida y estable. ADOPT también supera a Adam en aplicaciones como la clasificación ImageNet basada en Swin Transformer, el modelado generativo NVAE y el preentrenamiento de GPT-2 en condiciones de gradiente ruidosos y produce puntuaciones mejoradas en el ajuste del modelo de lenguaje LLaMA-7B en el punto de referencia MMLU.
El estudio aborda las limitaciones teóricas de los métodos de gradiente adaptativo como Adam, que necesitan configuraciones de hiperparámetros específicas para converger. Para resolver esto, los autores presentan ADOPT, un optimizador que logra tasas de convergencia óptimas en varias tareas sin ajustes específicos del problema. ADOPT supera las limitaciones de Adam al alterar el orden de actualización del impulso y excluir el gradiente actual de los cálculos del segundo momento, lo que garantiza la estabilidad en tareas como clasificación de imágenes, PNL y modelado generativo. El trabajo une la teoría y la aplicación en la optimización adaptativa, aunque investigaciones futuras pueden explorar suposiciones más relajadas para generalizar aún más la efectividad de ADOPT.
Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS‘
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.
Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️