SaRA: un método de ajuste fino que hace uso eficiente de la memoria para mejorar los modelos de difusión entrenados previamente

Los recientes avances en los modelos de difusión han mejorado significativamente tareas como la generación de imágenes, videos y 3D, siendo fundamentales los modelos entrenados previamente como Stable Diffusion. Sin embargo, adaptar estos modelos a nuevas tareas de manera eficiente sigue siendo un desafío. Los enfoques de ajuste fino existentes (aditivo, reparametrizado y selectivo) tienen limitaciones, como latencia adicional, sobreajuste o selección compleja de parámetros. Una solución propuesta implica aprovechar los parámetros “temporalmente ineficaces” (aquellos con un impacto actual mínimo pero con el potencial de aprender nueva información) reactivándolos para mejorar las capacidades generativas del modelo sin los inconvenientes de los métodos existentes.

Investigadores de la Universidad Jiao Tong de Shanghái y de Youtu Lab, Tencent, proponen SaRA, un método de ajuste fino para modelos de difusión preentrenados. Inspirado en la poda de modelos, SaRA reutiliza parámetros “temporalmente ineficaces” con valores absolutos pequeños optimizándolos mediante matrices dispersas, al tiempo que preserva el conocimiento previo. Emplean un esquema de entrenamiento de bajo rango basado en normas nucleares y una estrategia de ajuste progresivo de parámetros para evitar el sobreajuste. La retropropagación no estructural de SaRA, eficiente en el uso de la memoria, reduce los costos de memoria en un 40 % en comparación con LoRA. Los experimentos en modelos de difusión estable muestran el rendimiento superior de SaRA en varias tareas, requiriendo solo una única línea de modificación de código para su implementación.

Los modelos de difusión, como Stable Diffusion, son excelentes para las tareas de generación de imágenes, pero están limitados por el gran tamaño de sus parámetros, lo que dificulta el ajuste fino completo. Métodos como ControlNet, LoRA y DreamBooth abordan este problema agregando redes externas o realizando un ajuste fino para permitir la generación controlada o la adaptación a nuevas tareas. Los enfoques de ajuste fino que utilizan parámetros de manera eficiente, como Addictive Fine-Tuning (AFT) y Reparameterized Fine-Tuning (RFT), introducen matrices o adaptadores de bajo rango. Al mismo tiempo, Selective Fine-Tuning (SFT) se centra en modificar parámetros específicos. SaRA mejora estos métodos al reutilizar parámetros ineficaces, mantener la arquitectura del modelo, reducir los costos de memoria y mejorar la eficiencia del ajuste fino sin latencia de inferencia adicional.

En los modelos de difusión, los parámetros “ineficaces”, identificados por sus pequeños valores absolutos, muestran un impacto mínimo en el rendimiento cuando se los poda. Los experimentos en modelos de difusión estable (v1.4, v1.5, v2.0, v3.0) revelaron que establecer parámetros por debajo de un cierto umbral a cero a veces incluso mejora las tareas generativas. La ineficacia se debe a la aleatoriedad de la optimización, no a la estructura del modelo. El ajuste fino puede hacer que estos parámetros vuelvan a ser efectivos. SaRA, un método, aprovecha estos parámetros temporalmente ineficaces para el ajuste fino, utilizando restricciones de bajo rango y un ajuste progresivo para evitar el sobreajuste y mejorar la eficiencia, lo que reduce significativamente los costos de memoria y computación en comparación con los métodos existentes como LoRA.

El método propuesto se evaluó en tareas como el ajuste fino de la red troncal, la personalización de imágenes y la generación de videos utilizando métricas FID, CLIP y VLHI. Superó los enfoques de ajuste fino existentes (LoRA, AdaptFormer, LT-SFT) en todos los conjuntos de datos, mostrando un aprendizaje específico de la tarea superior y una conservación previa. La generación de imágenes y videos logró una mejor consistencia y evitó artefactos. El método también redujo el uso de memoria y el tiempo de entrenamiento en más del 45%. Los estudios de ablación destacaron la importancia del ajuste progresivo de parámetros y las restricciones de bajo rango. El análisis de correlación reveló una adquisición de conocimiento más efectiva que otros métodos, lo que mejoró el rendimiento de la tarea.

SaRA es un método de ajuste fino que utiliza parámetros de forma eficiente y aprovecha los parámetros de menor impacto en los modelos entrenados previamente. Al utilizar una pérdida de rango bajo basada en normas nucleares, SaRA evita el sobreajuste, mientras que su ajuste progresivo de parámetros mejora la eficacia del ajuste fino. La retropropagación no estructurada reduce los costos de memoria, lo que beneficia a otros métodos de ajuste fino selectivos. SaRA mejora significativamente las capacidades generativas en tareas como la transferencia de dominios y la edición de imágenes, superando a métodos como LoRA. Solo requiere una modificación de código de una línea para una fácil integración, lo que demuestra un rendimiento superior en modelos como Stable Diffusion 1.5, 2.0 y 3.0 en múltiples aplicaciones.

Echa un vistazo a la ModeloTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)