Revolucionando la fusión de modelos profundos: presentamos la mezcla dispersa de expertos de bajo rango (SMILE) para la ampliación de modelos escalables

El entrenamiento de modelos profundos a gran escala en amplios conjuntos de datos es cada vez más costoso en términos de recursos y efectos ambientales debido al desarrollo exponencial de los tamaños de los modelos y las escalas de los conjuntos de datos en el aprendizaje profundo. Un enfoque nuevo y potencialmente innovador son las técnicas de fusión de modelos profundos, que combinan los conocimientos de varios modelos en uno sin necesidad de un reentrenamiento sustancial. La combinación de las fortalezas de numerosos modelos de esta manera reduce los costos computacionales y permite la producción de modelos más robustos y versátiles.

Los procedimientos de combinación, fusión y ensamblaje de modelos son los grupos principales en los que se incluyen los enfoques de fusión de modelos. Las técnicas de combinación de modelos combinan las predicciones de múltiples modelos para mejorar el rendimiento. Mejoran el entrenamiento para la destilación de conocimiento, pero su memoria y computación son costosos. Sin embargo, los enfoques de fusión de modelos combinan los parámetros de diferentes modelos, generalmente alineándolos o ponderándolos. Las tácticas de fusión más adaptables y flexibles son posibles gracias a los métodos de combinación de modelos, que incorporan numerosos modelos a través de concatenación de profundidad o mecanismos de compuerta. Cuando se entrena para múltiples tareas simultáneamente, estas técnicas destacan porque el modelo combinado puede manejarlo todo. La fusión de modelos ha avanzado mucho, pero algunos obstáculos importantes aún impiden que alcance su máximo potencial. La interferencia entre los parámetros del modelo, que puede causar un rendimiento inferior al ideal, es una causa importante de desventaja. Además, uno de los mayores problemas con la fusión es que debe ser más fácil de interpretar. Para comprender los modelos combinados, es importante saber cómo se combinan los parámetros.

Investigadores de la Universidad de Wuhan, la Universidad Sun Yat-sen, la Academia JD Explore, el Instituto de Tecnología de Beijing y la Universidad Tecnológica de Nanyang ofrecen un nuevo punto de vista del subespacio para comprender y resolver el problema de la interferencia de parámetros en lugar de depender de enfoques heurísticos o suposiciones simplificadas. Utilizando la descomposición matricial, comenzaron por analizar el ajuste fino de la capa lineal desde una perspectiva de análisis del subespacio. Como resultado, se hace posible descomponer la predicción del modelo ajustado en sus partes, que incluyen tanto el conocimiento preentrenado como la adaptación específica de la tarea. Este método puede comprender mejor la capacidad de los modelos para adaptarse a las tareas posteriores mientras se mantiene la información preentrenada.

Los investigadores han logrado una comprensión más completa del ajuste fino mediante el análisis de datos experimentales. Reformulan la interferencia de parámetros como un problema de optimización, ofreciendo un punto de vista más científico y cuantificable. Presentan SMILE (zero-shot Sparse MIxture of Low-rank Experts), mejorando sus modelos fuente actuales. La característica zero-shot de su enfoque permite que los modelos fusionados se implementen inmediatamente en nuevos contextos o trabajos, lo que reduce significativamente el tiempo y los recursos que normalmente se necesitan para el desarrollo de modelos.

Sugirieron que la eficacia del método proviene de dos hallazgos importantes en el análisis del subespacio:

  1. Al adaptarse a nuevas tareas, se descubrió que el ajuste fino utiliza principalmente dimensiones menos significativas o no utilizadas anteriormente del espacio de parámetros, al tiempo que conserva los pesos preentrenados más relevantes. El subespacio de parámetros necesario para incluir nueva información puede diferir de un trabajo a otro. Aun así, esta conservación garantiza que la información crucial previa al entrenamiento codificada en los modelos iniciales se conserve durante el ajuste fino.
  2. La inferencia de parámetros es intratable en el espacio de parámetros inicial. Sin embargo, a medida que aumenta la dimensionalidad del modelo, se vuelve más manejable. Esta mejora brinda más “espacio” para que las modificaciones de parámetros específicas de la tarea puedan coexistir en armonía.

Los investigadores realizaron pruebas exhaustivas que abarcaron varias tareas y modelos en los dominios visual y lingüístico utilizando tanto la Adaptación de Bajo Rango (LoRA) como el ajuste fino completo clásico. Según los hallazgos, los modelos que se ajustan en su totalidad pueden alcanzar alrededor del 98-99% del rendimiento de ocho modelos ajustados separados agregando alrededor del 50% más de parámetros. Sin embargo, los modelos ajustados con LoRA, al mantener el 99% del rendimiento individual con solo un aumento del 2% en los parámetros, demuestran la eficiencia y la practicidad de la investigación. Su sistema también proporciona compensaciones de tamaño de rendimiento al cambiar el rango k de los expertos locales.

Aunque el enfoque MoE se activa de forma dispersa para que sea eficiente, aún así agrega costos computacionales, en particular cuando hay más trabajos o expertos a considerar. El equipo sugiere que al identificar los subespacios que tienen el mayor impacto en el desempeño específico de la tarea, es posible desarrollar estrategias de ajuste fino que sean más eficientes y se centren en actualizar solo las áreas del modelo que lo necesitan. Otros dominios, como los modelos de lenguajes grandes multimodales, pueden beneficiarse de esta estrategia, ya que trata varios tipos de datos (modalidades) como expertos independientes.


Echa un vistazo a la Papel y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Más de 49 000 suscriptores de ML en Reddit

Encuentre los próximos seminarios web sobre IA aquí


Dhanshree Shenwai es ingeniera informática y tiene una amplia experiencia en empresas de tecnología financiera que abarcan los ámbitos financiero, de tarjetas y pagos y bancario, y está muy interesada en las aplicaciones de la inteligencia artificial. Le entusiasma explorar nuevas tecnologías y avances en el cambiante mundo actual, facilitando la vida de todos.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Leer más
Back to top button