Block Transformer: mejora de la eficiencia de la inferencia en modelos de lenguaje grandes mediante modelado jerárquico de global a local

Los modelos de lenguajes grandes (LLM) han ganado una gran popularidad, pero su proceso de generación de tokens es computacionalmente costoso debido al mecanismo de autoatención. Este mecanismo requiere prestar atención a todos los tokens anteriores, lo que genera costos computacionales sustanciales. Aunque el almacenamiento en caché de estados clave-valor (KV) entre capas durante la decodificación autorregresiva es ahora un enfoque común, todavía implica cargar los estados KV de todos los tokens anteriores para calcular las puntuaciones de autoatención. Esta IO de caché de KV domina el costo de inferencia para los LLM. A pesar de las diversas técnicas propuestas para reducir los costos de los componentes de atención, el desarrollo de arquitecturas LM basadas en transformadores que eviten la sobrecarga de atención sigue siendo un desafío importante.

Investigadores de KAIST AI, LG AI Research y Google DeepMind han propuesto la arquitectura Block Transformer para abordar los cuellos de botella de inferencia de la autoatención en transformadores autorregresivos. Este enfoque adopta un modelado jerárquico de global a local para mitigar el importante cuello de botella de E/S de la caché KV en la inferencia por lotes. Block Transformer separa el costoso modelado global en las capas inferiores mientras utiliza un modelado local más rápido en las capas superiores. Luego, la arquitectura agrega tokens de entrada en bloques de tamaño fijo y aplica la autoatención en este nivel aproximado para reducir los costos en las capas inferiores. Además, muestra ganancias de 10 a 20 veces en el rendimiento de inferencia en comparación con los transformadores básicos con perplejidad similar, lo que marca un nuevo enfoque para optimizar la inferencia del modelo de lenguaje a través del modelado de global a local.

La arquitectura Block Transformer consta de dos etapas distintas: comprensión del contexto global e interacciones locales detalladas. Las capas inferiores capturan el contexto global con una granularidad aproximada a nivel de bloque y las capas superiores resuelven las dependencias locales. Además, el modelado global de grano grueso reduce los cuellos de botella de la caché KV, mientras que la decodificación local casi elimina la sobrecarga de la caché KV y los costos de precarga. Permite que el decodificador de tokens utilice más FLOP para modelado de lenguaje detallado con un impacto mínimo en el rendimiento de inferencia. Las ganancias de eficiencia de la arquitectura son evidentes tanto en las etapas de precarga como de decodificación, abordando cuellos de botella clave en los modelos de transformadores tradicionales.

Block Transformer demuestra un rendimiento de modelado de lenguaje comparable al de los modelos básicos con parámetros equivalentes, logrando perplejidad y precisión similares en tareas de evaluación de disparo cero. Muestra un aumento de 25 veces en el rendimiento tanto en escenarios con mucha precarga como con mucha decodificación. Esta mejora proviene de reducciones significativas en la memoria caché KV, lo que permite tamaños de lotes seis veces mayores. La arquitectura también reduce la latencia en situaciones con mucho precarga. Además, Block Transformer mantiene un alto rendimiento con mensajes de mayor duración, superando a los modelos básicos con mensajes más cortos. Mejora aún más el rendimiento en escenarios con contextos que superan el millón de tokens.

Los investigadores compararon además el transformador propuesto con el modelo MEGABYTE, mostrando un aumento de rendimiento de más de 1,5 veces en comparación con MEGABYTE. Esta mejora se atribuye a una mayor capacidad computacional local. Además, el enfoque de modelado de global a local se alinea con estudios recientes sobre algoritmos de compresión de caché KV que preservan solo tokens significativos basados en puntuaciones de atención acumuladas. El Block Transformer muestra un patrón de atención similar, y la mayor parte de la atención se centra en la primera ficha. Esta observación sugiere un potencial para mejorar aún más el rendimiento utilizando incrustaciones globales o incrustaciones de contexto de la ventana anterior.

En conclusión, los investigadores introdujeron la arquitectura Block Transformer para abordar los cuellos de botella de inferencia de la autoatención en transformadores autorregresivos. Proporciona un enfoque para los transformadores autorregresivos aprovechando el modelado de global a local, lo que demuestra importantes ventajas en el tiempo de inferencia. El artículo destaca los roles cruciales de los componentes globales y locales en el modelado del lenguaje, trabajando en los beneficios de inferencia del decodificador de tokens que antes se pasaban por alto. El Block Transformer logra mejoras sustanciales en el rendimiento en comparación con los transformadores básicos de rendimiento equivalente con la ayuda de un diseño arquitectónico estratégico. Los impactos más amplios de este diseño subrayan su potencial para influir en diversas aplicaciones de modelos lingüísticos en diferentes dominios.

Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Quiere estar frente a más de 1 millón de lectores de IA? Trabaja con nosotros aquí

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.