MaskLLM: un método de inteligencia artificial fácil de aprender que facilita la capacitación de extremo a extremo de la dispersión de LLM en conjuntos de datos a gran escala

Los LLM, caracterizados por sus enormes tamaños de parámetros, a menudo conducen a ineficiencias en la implementación debido a las altas demandas computacionales y de memoria. Una solución práctica es la poda semiestructurada, en particular el patrón de escasez N: M, que mejora la eficiencia al mantener N valores distintos de cero entre M parámetros. Si bien es compatible con el hardware, como las GPU, este enfoque enfrenta desafíos debido al vasto espacio de parámetros en los LLM. Métodos como SparseGPT y Wanda utilizan pequeños conjuntos de calibración y criterios de importancia para seleccionar parámetros redundantes. Aún así, estos tienen un alcance limitado, lo que dificulta la generalización e introduce errores en la representación de la calidad del modelo en diversos dominios.

Investigadores de NVIDIA y la Universidad Nacional de Singapur presentaron MaskLLM, un método de poda que se puede aprender y que aplica la dispersión N:M a los LLM, lo que reduce la sobrecarga computacional durante la inferencia. A diferencia de los métodos tradicionales, MaskLLM utiliza el muestreo Gumbel Softmax para modelar la escasez como una distribución que se puede aprender, lo que permite un entrenamiento eficiente de un extremo a otro en grandes conjuntos de datos. Este enfoque mejora la precisión y la transferibilidad de la máscara, lo que permite que los patrones de escasez aprendidos se apliquen en diferentes tareas o dominios. Los experimentos en modelos como LLaMA-2 y GPT-3 muestran mejoras significativas en el rendimiento, con MaskLLM logrando una perplejidad de 6,72 en comparación con 10,42 en SparseGPT.

Los métodos de poda son eficaces para comprimir LLM al eliminar parámetros redundantes. Estos métodos se pueden clasificar en poda estructurada, no estructurada y semiestructurada. La poda estructurada elimina subestructuras como los cabezales de atención, mientras que la poda no estructurada elimina parámetros individuales, ofreciendo más flexibilidad pero menos eficiencia de aceleración. La poda semiestructurada, como la escasez de N: M, logra un equilibrio al combinar patrones estructurados con escasez de grano fino para mejorar la eficiencia y la flexibilidad. Recientemente, los métodos de escasez de aprendizaje han llamado la atención, particularmente en modelos de visión, y este trabajo es pionero en la aplicación de máscaras N: M aprendibles en LLM congelados, abordando el desafío de los parámetros a gran escala.

El marco MaskLLM introduce la dispersión N: M para optimizar los LLM mediante la selección de máscaras binarias para bloques de parámetros, lo que garantiza una poda eficiente sin degradar significativamente el rendimiento del modelo. Centrándose en la escasez de 2:4, selecciona máscaras donde dos de cuatro valores permanecen distintos de cero. El desafío de la selección de máscaras no diferenciables se aborda a través de Gumbel Softmax, lo que permite un muestreo diferenciable y optimización de máscaras mediante descenso de gradiente. MaskLLM aprende máscaras a partir de datos a gran escala y las transfiere a tareas posteriores. La regularización del peso escaso mantiene la calidad posterior a la poda y las máscaras previas mejoran el proceso de aprendizaje, lo que garantiza una compresión del modelo eficiente y efectiva.

Los investigadores evaluaron MaskLLM en múltiples LLM (LLaMA-2, Nemotron-4, GPT-3 multilingüe) que van desde parámetros 843M a 15B. MaskLLM aprende máscaras de escasez 2:4 a través de un entrenamiento de extremo a extremo, superando a líneas de base como SparseGPT y Wanda en precisión y perplejidad. El método mejora la calidad de la máscara con grandes conjuntos de datos y muestra solidez en entornos de bajos recursos. La transferencia de aprendizaje mediante máscaras precalculadas acelera el entrenamiento, mientras que mantener grandes pesos restantes mejora el rendimiento de las tareas posteriores. La exploración estocástica de MaskLLM garantiza el descubrimiento de máscaras de alta calidad, con resultados que superan a SparseGPT en perplejidad después del entrenamiento con 1280 muestras.

MaskLLM presenta un método de poda que se puede aprender para aplicar la escasez de N: M en LLM para reducir los costos computacionales durante la inferencia. En lugar de utilizar un criterio de importancia predefinido, modela N: M patrones de escasez a través del muestreo Gumbel Softmax, lo que permite un entrenamiento de un extremo a otro en grandes conjuntos de datos. MaskLLM ofrece aprendizaje de máscaras de alta calidad y transferibilidad entre dominios. Probado en LLaMA-2, Nemotron-4 y GPT-3, con tamaños que van desde parámetros 843M a 15B, MaskLLM superó a los métodos de última generación en perplejidad y eficiencia. Sus máscaras se pueden personalizar para realizar tareas posteriores sin pérdidas.


Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

Suscríbase al boletín de ML de más rápido crecimiento con más de 26.000 suscriptores.


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Leer más
Back to top button