Investigadores de Georgia Tech e IBM presentan KnOTS: un marco de IA sin gradientes para fusionar modelos LoRA

La fusión de modelos ha surgido como una técnica poderosa para crear modelos versátiles y multitarea mediante la combinación de pesos de modelos de tareas específicas. Este enfoque permite capacidades cruciales como la acumulación de habilidades, la corrección de debilidades del modelo y la mejora colaborativa de los modelos existentes. Si bien la fusión de modelos ha demostrado un éxito notable con modelos ajustados de rango completo (FFT), surgen desafíos importantes al aplicar estas técnicas a métodos de ajuste fino de parámetros eficientes (PEFT), particularmente la adaptación de rango bajo (LoRA). El análisis mediante alineación centrada del núcleo (CKA) revela que, a diferencia de los modelos FFT con una alta alineación de actualización de tareas, los modelos LoRA muestran una alineación mucho menor, lo que indica que sus actualizaciones de tareas procesan entradas a través de subespacios desalineados.

Han surgido enfoques existentes para abordar los desafíos de la fusión de modelos, basándose en el concepto de conectividad de modo donde los valores de los parámetros de redes neuronales entrenadas de forma independiente se pueden interpolar sin aumentar la pérdida de prueba. Un enfoque llamado Task Arithmetic (TA) introdujo el concepto de “vectores de tareas” al restar los parámetros del modelo previamente entrenados de los ajustados, mientras que TIES mejoró esto al abordar la interferencia de los parámetros mediante un promedio selectivo de pesos que comparten signos dominantes. Además, DARE exploró vectores de tareas dispersos mediante la caída aleatoria de peso. Sin embargo, estos métodos han mostrado un éxito limitado cuando se aplican a modelos LoRA debido al mayor enredo de peso entre los modelos.

Investigadores de Georgia Tech e IBM Research, MIT han propuesto KnOTS (Knowledge Orientation Through SVD), un enfoque novedoso que transforma las actualizaciones de tareas de diferentes modelos LoRA en un espacio compartido utilizando la descomposición de valores singulares (SVD). Este método está diseñado para ser versátil y compatible con las técnicas de fusión existentes. KnOTS opera combinando actualizaciones de tareas para cada capa y descomponiéndolas a través de SVD. Además, los investigadores introdujeron un nuevo punto de referencia de “evaluación conjunta” para evaluar este método y probar la capacidad de los modelos fusionados para manejar entradas de múltiples conjuntos de datos simultáneamente sin un contexto específico del conjunto de datos. Proporciona una evaluación más realista de las capacidades de generalización de un modelo en diversas tareas.

KnOTS implementa una arquitectura compleja que opera en múltiples etapas para alinear y fusionar de manera efectiva los modelos LoRA. El método funciona con varios enfoques de fusión sin gradientes existentes, incluidos RegMean, Task-Arithmetic (TA), TIES y DARE. RegMean utiliza una regresión lineal local de forma cerrada para alinear los pesos del modelo, mientras que TA realiza una suma lineal directa de parámetros utilizando coeficientes de escala. TIES mejora este enfoque mediante la implementación de poda basada en magnitud y resolución de signos para reducir los conflictos de parámetros. Además, DARE introduce un elemento probabilístico mediante la poda aleatoria de parámetros siguiendo una distribución de Bernoulli. Los investigadores también incluyen una línea de base Ensemble que procesa entradas a través de todos los modelos y selecciona predicciones basadas en las puntuaciones de confianza más altas.

Los resultados experimentales demuestran la eficacia de KnOTS en diversas tareas y arquitecturas de modelos. En el ámbito de la visión, al fusionar ocho modelos ViT-B/32 ajustados en diferentes conjuntos de datos de clasificación de imágenes, KnOTS logra un rendimiento similar en comparación con los métodos existentes. El enfoque muestra resultados aún más impresionantes con modelos ViT-L/14 más grandes, donde KnOTS-TIES supera las líneas base hasta en un 3%. En el dominio del lenguaje, al realizar pruebas en modelos Llama3-8B ajustados para tareas de inferencia de lenguaje natural, KnOTS-TIES mejora significativamente los métodos de referencia, logrando una precisión normalizada promedio hasta un 2,9% mayor. Además, KnOTS-DARE-TIES mejora aún más el rendimiento en un 0,2% adicional.

En este artículo, los investigadores presentaron KnOTS, un método que utiliza la descomposición de valores singulares (SVD) para transformar las actualizaciones de tareas de los modelos LoRA en un espacio de representación compartido, lo que permite la aplicación de varias técnicas de fusión sin gradientes. Además, los investigadores introducen un nuevo punto de referencia de “evaluación conjunta” que evalúa la capacidad de los modelos fusionados para manejar entradas de múltiples conjuntos de datos, sin ningún contexto específico del conjunto de datos. Amplios experimentos muestran la efectividad de KnOTS, que mejora consistentemente el rendimiento de los enfoques de fusión existentes hasta en un 4,3%, lo que demuestra su solidez en todas las arquitecturas y tareas del modelo. KnOTS tiene el potencial de crear modelos generales multitarea al alinear y fusionar efectivamente representaciones LoRA.


Mira el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Próximo evento en vivo de LinkedIn) ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leer más
Back to top button