Evaluación integral de LLM ajustados por instrucciones cuantificadas: exploración de métodos de cuantificación para modelos que abarcan parámetros de 7B a 405B

Los modelos de lenguaje grande (LLM) han ganado una atención significativa debido a su impresionante rendimiento, siendo el lanzamiento de Llama 3.1 en julio de 2024 un ejemplo notable. Sin embargo, la implementación de estos modelos en entornos con recursos limitados plantea desafíos importantes debido a su enorme cantidad de parámetros. La cuantificación de bits bajos ha surgido como una técnica popular para comprimir los LLM, lo que reduce las demandas de memoria y computacionales durante la inferencia. La investigación existente sobre algoritmos de cuantificación ha sido limitada en su alcance, centrándose principalmente en modelos preentrenados en lugar de los modelos ajustados por instrucciones más utilizados. Es importante comprender el impacto del uso eficiente de estos métodos de cuantificación en la precisión en varios conjuntos de datos, tamaños de modelos y enfoques de entrenamiento.

Los métodos existentes para abordar los desafíos de cuantificación de LLM incluyen Quantization Aware Training (QAT) y Post-Training Quantization (PTQ), donde QAT es difícil de aplicar y, por lo tanto, PTQ se adopta más ampliamente para LLM a pesar de la posible reducción de la precisión. Otros métodos incluyen LLM.int8(), que utiliza pesos y activaciones de 8 bits, y GPTQ, una técnica de cuantificación por capas que utiliza información hessiana inversa. Para evaluar LLM, se han explorado aspectos como la cuantificación de pesos y activaciones en tareas de modelado de lenguaje, las capacidades emergentes de LLM cuantificados y las dimensiones de confiabilidad. Sin embargo, la mayoría de las investigaciones dependen en gran medida de la precisión como métrica de evaluación principal, lo que ha dejado lagunas en la comprensión de los impactos de la cuantificación en tareas cruciales como la confiabilidad, el diálogo y los escenarios de contexto largo.

Un equipo de ETRI, KETI y Neubla ha propuesto una evaluación integral de los LLM ajustados por instrucción en varios métodos de cuantificación. Su estudio abarca modelos que van desde parámetros 7B a 405B, utilizando técnicas de cuantificación GPTQ, AWQ, SmoothQuant y FP8. Este enfoque proporciona una comprensión detallada de cómo los diferentes métodos de cuantificación afectan el rendimiento de los LLM en diversas tareas y tamaños de modelo. También aborda las limitaciones de estudios anteriores al incluir los modelos más recientes y una gama más amplia de parámetros, lo que ofrece información sobre la eficacia de las técnicas de cuantificación en los LLM de vanguardia.

El estudio incluye un marco de evaluación integral, que utiliza 13 conjuntos de datos y puntos de referencia ampliamente utilizados en 6 tipos de tareas. Para CommonSenseQA, se utilizan conjuntos de datos como ARC, HellaSwag y Winogrande para evaluar la capacidad de la IA para manejar el razonamiento similar al humano y el conocimiento elemental. Además, la cuantificación de activación (SmoothQuant) y los métodos de cuantificación de solo peso como GPTQ y AWQ se implementan utilizando herramientas como AutoGPTQ, llmcompressor y AutoAWQ. GPTQ utiliza cuantificación por capas y utiliza información hessiana inversa para mitigar la pérdida de precisión, mientras que AWQ está diseñado para preservar la precisión de los pesos críticos en LLM. Ambos métodos utilizaron un tamaño de grupo de 128 para la cuantificación.

Los resultados experimentales muestran que los LLM cuantificados más grandes generalmente superan a los modelos más pequeños en la mayoría de los puntos de referencia, excepto en las tareas de alucinación y seguimiento de instrucciones. Por ejemplo, un Llama-2-13B cuantificado de 4 bits (6,5 GB) superó a un Llama-2-7B FP16 (14 GB) en la mayoría de los puntos de referencia, con un 4,66 % y un 1,16 % más de precisión en los conjuntos de datos OpenLLM Leaderboard-v1 y v2, respectivamente. Además, la comparación de los métodos de cuantificación mostró poca diferencia entre la cuantificación de solo ponderación (GPTQ y AWQ) y la cuantificación de activación (SmoothQuant) en la mayoría de los casos. Sin embargo, SmoothQuant provocó caídas de precisión, hasta un -2,93 % y un -9,23 % en promedio para modelos grandes como Llama3.1-405B en comparación con FP8 en los conjuntos de datos OpenLLM Leaderboard-v1 y v2, respectivamente.

En este artículo, un equipo de ETRI, KETI y Neubla presentó una evaluación integral de los LLM ajustados a las instrucciones en varios métodos de cuantificación en una amplia gama de 13 conjuntos de datos y 6 tipos de tareas. El artículo cubre modelos que van desde parámetros 7B a 405B y utiliza cuatro métodos de cuantificación: GPTQ, AWQ, SmoothQuant y FP8. Los hallazgos revelaron que los LLM cuantificados superaron a los modelos más pequeños en la mayoría de las tareas, con notables excepciones en la detección de alucinaciones y el seguimiento de instrucciones. La cuantificación basada únicamente en el peso (GPTQ y AWQ) mostró resultados superiores en el modelo 405B. El estudio también destacó las limitaciones del método de evaluación MT-Bench para diferenciar entre LLM de alto rendimiento.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)