Este artículo de IA presenta BitNet a4.8: un LLM de 4 bits altamente eficiente y preciso

Los modelos de lenguaje grande (LLM) se han vuelto fundamentales en el procesamiento del lenguaje natural, especialmente en aplicaciones donde la comprensión de datos de texto complejos es fundamental. Estos modelos requieren grandes cantidades de recursos computacionales debido a su tamaño, lo que plantea desafíos de latencia, uso de memoria y consumo de energía. Para hacer que los LLM sean más accesibles para aplicaciones escalables, los investigadores han estado desarrollando técnicas para reducir el costo computacional asociado con estos modelos sin sacrificar la precisión y la utilidad. Este esfuerzo implica perfeccionar las arquitecturas de modelos para utilizar menos bits para la representación de datos, con el objetivo de hacer que los modelos de lenguaje de alto rendimiento sean viables para su implementación a gran escala en diversos entornos.

Un problema persistente para los LLM radica en su naturaleza intensiva en recursos, lo que exige una importante capacidad de procesamiento y memoria, particularmente durante la inferencia. A pesar de los avances en la optimización de modelos, el costo computacional asociado con estos modelos sigue siendo una barrera para muchas aplicaciones. Esta sobrecarga computacional surge principalmente de los numerosos parámetros y operaciones necesarios para procesar entradas y generar salidas. Además, a medida que los modelos se vuelven más complejos, aumenta el riesgo de errores de cuantificación, lo que provoca posibles caídas en la precisión y la confiabilidad. La comunidad de investigación continúa buscando soluciones a estos desafíos de eficiencia, enfocándose en reducir el ancho de bits de los pesos y activaciones para mitigar las demandas de recursos.

Se han propuesto varios métodos para abordar estos problemas de eficiencia, siendo la escasez de activación y la cuantificación los enfoques destacados. La escasez de activación reduce la carga computacional al desactivar selectivamente las entradas de activación de baja magnitud, minimizando el procesamiento innecesario. Esta técnica es particularmente efectiva para activaciones con distribuciones de cola larga, que contienen muchos valores insignificantes que pueden ignorarse sin un impacto sustancial en el rendimiento. Mientras tanto, la cuantificación de la activación reduce el ancho de bits de las activaciones, lo que disminuye la transferencia de datos y los requisitos de procesamiento para cada paso computacional. Sin embargo, ambos métodos enfrentan limitaciones debido a valores atípicos dentro de los datos, que a menudo tienen magnitudes mayores y son difíciles de manejar con precisión con representaciones de bits bajos. Las dimensiones atípicas pueden introducir errores de cuantificación, lo que reduce la precisión del modelo y complica la implementación de LLM en entornos de bajos recursos.

Investigadores de Microsoft Research y la Universidad de la Academia de Ciencias de China propusieron una nueva solución llamada BitNet a4.8. Este modelo aplica un enfoque híbrido de cuantificación y dispersión para lograr activaciones de 4 bits manteniendo pesos de 1 bit. BitNet a4.8 aborda el desafío de la eficiencia al combinar la activación de bits bajos con la dispersión estratégica en estados intermedios, lo que permite que el modelo funcione de manera efectiva bajo demandas computacionales reducidas. El modelo conserva una alta precisión en sus predicciones mediante la cuantificación selectiva, lo que ofrece una alternativa eficiente para implementar LLM a escala. El enfoque del equipo de investigación representa un paso importante para hacer que los LLM sean más adaptables a entornos con recursos limitados.

La metodología detrás de BitNet a4.8 implica un proceso de cuantificación y dispersión de dos etapas diseñado específicamente para reducir los errores de cuantificación en dimensiones atípicas. Primero, el modelo se entrena utilizando activaciones de 8 bits y se cambia progresivamente a activaciones de 4 bits, lo que le permite adaptarse a una precisión más baja sin una pérdida significativa de precisión. Este enfoque de entrenamiento en dos etapas permite a BitNet a4.8 utilizar activaciones de 4 bits de forma selectiva en capas menos afectadas por errores de cuantificación, manteniendo al mismo tiempo una escasez de 8 bits para estados intermedios donde se necesita una mayor precisión. Al adaptar el ancho de bits a capas específicas en función de su sensibilidad a la cuantificación, BitNet a4.8 logra un equilibrio óptimo entre la eficiencia computacional y el rendimiento del modelo. Además, el modelo activa solo el 55 % de sus parámetros y emplea una caché de valor clave (KV) de 3 bits, lo que mejora aún más la eficiencia de la memoria y la velocidad de inferencia.

BitNet a4.8 demuestra mejoras de rendimiento notables en varios puntos de referencia con respecto a su predecesor, BitNet b1.58, y otros modelos, como FP16 LLaMA LLM. En una comparación directa con BitNet b1.58, BitNet a4.8 mantuvo niveles de precisión comparables al tiempo que ofrecía una eficiencia computacional mejorada. Por ejemplo, con una configuración de 7 mil millones de parámetros, BitNet a4.8 logró una puntuación de perplejidad de 9,37, muy similar a la de LLaMA LLM, e informó tasas de precisión promedio en tareas de lenguaje posteriores que mostraron diferencias insignificantes con respecto a los modelos de precisión total. La arquitectura del modelo arrojó hasta un 44,5% de escasez en la configuración más grande probada, con 3,4 mil millones de parámetros activos en su versión de 7 mil millones de parámetros, lo que redujo significativamente la carga computacional. Además, la caché KV de 3 bits permitió velocidades de procesamiento más rápidas, lo que solidificó aún más la capacidad de BitNet a4.8 para una implementación eficiente sin sacrificar el rendimiento.

En conclusión, BitNet a4.8 proporciona una solución prometedora a los desafíos computacionales que enfrentan los LLM, equilibrando efectivamente la eficiencia y la precisión a través de su metodología híbrida de cuantificación y dispersión. Este enfoque mejora la escalabilidad del modelo y abre nuevas vías para implementar LLM en entornos con recursos limitados. BitNet a4.8 se destaca como una opción viable para la implementación de modelos de lenguaje a gran escala al optimizar el ancho de bits y minimizar los parámetros activos.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leer más
Back to top button