Investigadores de China presentan INT-FlashAttention: arquitectura de cuantificación INT8 compatible con FlashAttention que mejora la velocidad de inferencia de FlashAttention en GPU Ampere

Los modelos de lenguaje grande (LLM) evalúan e interpretan vínculos entre palabras o tokens en una secuencia principalmente a través del mecanismo de autoatención. Sin embargo, la complejidad del tiempo y la memoria de este módulo aumenta cuadráticamente con la longitud de la secuencia, lo cual es una desventaja. Las secuencias más largas exigen exponencialmente más memoria y procesamiento, lo que hace que escalar los LLM para aplicaciones que involucran contextos más largos sea ineficiente y desafiante.

FlashAttention se desarrolló como una forma de superar esta restricción acelerando los cálculos de atención y utilizando menos memoria. Para ello, utiliza la jerarquía de memoria de la GPU, que es la disposición y accesibilidad de la memoria en una GPU. Al dividir los cálculos en partes más pequeñas y manejables que encajan de manera más efectiva en la memoria de la GPU, FlashAttention optimiza el proceso de atención, lo que resulta en un rendimiento más rápido y menos sobrecarga de memoria. Esto aumenta la escalabilidad del mecanismo de atención, especialmente para secuencias más largas.

La combinación de métodos de cuantificación con FlashAttention es un nuevo tema de investigación intrigante. La cuantificación utiliza formas numéricas menos complejas, como INT8 (entero de 8 bits), para minimizar la precisión de los datos utilizados en las simulaciones de modelos, lo que permite un procesamiento más rápido y un menor uso de memoria. Esto puede generar ganancias de eficiencia aún mayores cuando se combina con FlashAttention, particularmente en la etapa de inferencia, que es cuando el modelo genera predicciones basadas en datos aprendidos previamente.

En una investigación reciente realizada en China, se propuso INT-FlashAttention, que es una innovación significativa en este sentido. Como la primera arquitectura creada especialmente para GPU Ampere, como la serie A100 de NVIDIA, integra completamente la cuantificación INT8 con el proceso de avance de FlashAttention. INT-FlashAttention utiliza núcleos de multiplicación de matrices generales (GEMM) INT8 mucho más eficientes en lugar de las operaciones de punto flotante normalmente utilizadas en el módulo de autoatención. En comparación con los formatos de punto flotante como FP16 o FP8, las operaciones INT8 exigen sustancialmente menos recursos de procesamiento, lo que aumenta significativamente la velocidad de inferencia y el ahorro de energía.

INT-FlashAttention es único porque puede procesar entradas completamente INT8, incluidas las matrices de consulta (Q), clave (K) y valor (V) que son esenciales para el mecanismo de atención para todos los cálculos relacionados con la atención. Para conservar la precisión incluso con una precisión reducida, INT-FlashAttention conserva la información específica del token mediante la utilización de una técnica de cuantificación posterior al entrenamiento a nivel de token. Además, este enfoque a nivel de token es flexible y hace que el marco sea compatible con varios formatos de menor precisión, como INT4 (enteros de 4 bits), lo que proporciona memoria adicional y ahorros computacionales sin comprometer el rendimiento.

El equipo compartió que, tras la evaluación, cuando se utiliza INT-FlashAttention en lugar de la implementación típica FP16 (punto flotante de 16 bits) de FlashAttention, la velocidad de inferencia es un 72% más rápida. En comparación con FlashAttention basado en FP8, puede eliminar el error de cuantificación hasta en un 82%, lo que significa que además de operar más rápidamente, también mantiene una mayor precisión. Estos hallazgos han demostrado que INT-FlashAttention puede aumentar en gran medida la escalabilidad y eficiencia de los LLM en hardware de uso común, como las GPU Ampere.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

La investigación ha presentado INT-FlashAttention, una arquitectura única de cuantificación posterior al entrenamiento a nivel de token que mejora la eficiencia sin comprometer el mecanismo central de atención. Se integra perfectamente en el flujo de trabajo computacional directo de FlashAttention.

El equipo ha implementado la versión INT8 del prototipo INT-FlashAttention, que supone un avance importante en las técnicas de cuantificación y computación de la atención.

Se han realizado pruebas exhaustivas para validar los resultados experimentales, que muestran que INT-FlashAttention logra una velocidad de inferencia mucho mayor que las soluciones básicas. También muestra una mayor precisión de cuantificación que las soluciones anteriores, lo que significa que, además de ser más rápido, conserva una representación más precisa de los datos que las implementaciones FlashAttention de FP16 o FP8.

En conclusión, el lanzamiento de INT-FlashAttention es un paso clave hacia la mejora de la eficiencia y la accesibilidad de los LLM de alto rendimiento para una gama más amplia de aplicaciones, especialmente en centros de datos donde las arquitecturas de GPU más antiguas como Ampere todavía se utilizan ampliamente. Al utilizar la cuantificación y FlashAttention juntos, INT-FlashAttention proporciona una forma potente de mejorar la velocidad y precisión de la inferencia de modelos de lenguaje a gran escala.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de 52k+ ML.

Estamos invitando a startups, empresas e instituciones de investigación que estén trabajando en modelos de lenguajes pequeños a participar en este próximo Revista/Informe ‘Small Language Models’ de Marketchpost.com. Esta revista/informe se publicará a finales de octubre o principios de noviembre de 2024. ¡Haga clic aquí para programar una llamada!

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.