Investigadores de Apple proponen cortar la entropía cruzada (CCE): un método de aprendizaje automático que calcula la pérdida de entropía cruzada sin materializar los logits de todos los tokens en la memoria global
Los avances en los modelos de lenguaje grande (LLM) han revolucionado el procesamiento del lenguaje natural, con aplicaciones que abarcan la generación, traducción y resumen de texto. Estos modelos se basan en grandes cantidades de datos, grandes cantidades de parámetros y vocabularios amplios, lo que requiere técnicas sofisticadas para gestionar los requisitos computacionales y de memoria. Un componente crítico del entrenamiento LLM es el cálculo de la pérdida de entropía cruzada, que, si bien es fundamental para la precisión del modelo, presenta importantes desafíos de memoria debido al tamaño y la complejidad del vocabulario.
Los requisitos de memoria de la capa de pérdida de entropía cruzada restringen el entrenamiento de modelos de lenguaje grandes, especialmente cuando el tamaño del vocabulario alcanza cientos de miles de tokens. El problema se agudiza en modelos como Gemma 2 (2B), donde el cálculo de la pérdida de entropía cruzada por sí solo puede consumir hasta 24 GB de memoria, lo que representa hasta el 90 % de la huella de memoria durante el entrenamiento. Estas limitaciones restringen el tamaño de los lotes y obligan a hacer concesiones entre el rendimiento del modelo y la viabilidad computacional, lo que plantea un cuello de botella importante para la escalabilidad.
Los métodos anteriores destinados a reducir el uso de memoria, como FlashAttention y los vocabularios jerárquicos, han abordado componentes específicos como la autoatención, pero no logran aliviar la carga de la capa de entropía cruzada. Los métodos de fragmentación reducen los requisitos de memoria, pero introducen compensaciones en materia de latencia, lo que limita su uso práctico. Además, estos enfoques deben aprovechar al máximo la escasez de gradientes o aprovechar las optimizaciones de hardware, lo que deja margen de mejora.
Los investigadores de Apple presentaron el Cortar la entropía cruzada (CCE) método, un enfoque novedoso diseñado para superar los desafíos de memoria asociados con modelos de vocabulario extensos. A diferencia de los métodos convencionales que calculan y almacenan todos los logits de los tokens en la memoria, CCE calcula dinámicamente sólo los logits necesarios y realiza reducciones log-sum-exp en la memoria del chip. Esta técnica elimina la necesidad de materializar grandes matrices en la memoria de la GPU, reduciendo significativamente la huella de memoria. Por ejemplo, en el modelo Gemma 2, el uso de memoria para el cálculo de pérdidas se redujo de 24 GB a solo 1 MB, y el consumo total de memoria del cabezal clasificador se redujo de 28 GB a 1 GB.
El núcleo de CCE radica en su estrategia de cálculo eficiente, que emplea núcleos CUDA personalizados para procesar incrustaciones y realizar reducciones. Al calcular logits sobre la marcha y evitar el almacenamiento de memoria intermedia, el método aprovecha la memoria GPU compartida, que es más rápida y eficiente que el uso de memoria global tradicional. Además, el filtrado de gradiente omite selectivamente los cálculos que contribuyen de manera insignificante al gradiente, aprovechando la escasez inherente de la matriz softmax. La clasificación de vocabulario optimiza el procesamiento al agrupar tokens con contribuciones significativas, minimizando el desperdicio de cálculo. Juntas, estas innovaciones permiten un mecanismo de cálculo de baja latencia y eficiencia de memoria.
Las mejoras en el rendimiento gracias al CCE son notables. Las reducciones de memoria permitieron un aumento de 10 veces en el tamaño del lote para modelos más pequeños como GPT-2 y un aumento de 1,5 veces para modelos más grandes como Llama 2 (13B). El rendimiento del entrenamiento no se vio afectado y los resultados experimentales demostraron una convergencia estable, igualando el rendimiento de los métodos tradicionales. Para un lote de 8192 tokens con un tamaño de vocabulario de 256 000, CCE logró un uso máximo de memoria de solo 1 MB en comparación con los 28 GB de los métodos básicos. Las pruebas de estabilidad del entrenamiento en modelos como Llama 3 (8B) y Phi 3.5 Mini confirmaron la confiabilidad de CCE, con curvas de pérdida indistinguibles en comparación con los enfoques existentes.
Esta investigación destaca varias conclusiones clave:
- Reducción significativa de la memoria: CCE reduce el uso de memoria para el cálculo de pérdida de entropía cruzada a niveles insignificantes, tan solo 1 MB para modelos a gran escala como Gemma 2 (2B).
- Escalabilidad mejorada: al permitir lotes de mayor tamaño, el método admite una utilización más eficiente de los recursos computacionales, lo cual es crucial para entrenar modelos extensos.
- Ganancias de eficiencia: Los núcleos CUDA personalizados y el filtrado de gradientes garantizan que la reducción del uso de memoria no comprometa la velocidad de entrenamiento ni la convergencia del modelo.
- Aplicabilidad práctica: el método se adapta a diversas arquitecturas y escenarios, con aplicaciones potenciales que se extienden a la clasificación de imágenes y el aprendizaje contrastivo.
- Potencial futuro: la capacidad de CCE para manejar vocabularios extensos con un impacto mínimo en la memoria podría facilitar el entrenamiento de modelos aún más extensos con un equilibrio de canalización mejorado.
En conclusión, el método CCE representa un avance significativo en el entrenamiento de modelos de lenguaje grandes al abordar el cuello de botella crítico de las capas de pérdida de entropía cruzada que requieren mucha memoria. A través de técnicas innovadoras como el cálculo logit dinámico, el filtrado de gradientes y la clasificación de vocabulario, CCE permite reducciones espectaculares en el uso de memoria sin sacrificar la velocidad o la precisión. Este avance no sólo mejora la eficiencia de los modelos actuales, sino que también allana el camino para arquitecturas más escalables y equilibradas en el futuro, abriendo nuevas posibilidades para el aprendizaje automático a gran escala.
Mira el Página de papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🐝🐝 Próximo evento en vivo de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.