Optimización de la capacitación previa del modelo de IA a gran escala para la investigación académica: un enfoque que utiliza eficientemente los recursos

El panorama de la investigación de la IA está experimentando importantes desafíos debido a los inmensos requisitos computacionales de los grandes modelos de lenguaje y visión previamente entrenados. La formación incluso de modelos relativamente modestos exige recursos sustanciales; por ejemplo, Pythia-1B requiere 64 GPU durante tres días, mientras que RoBERTa necesita 1000 GPU durante un solo día. Esta barrera computacional afecta a los laboratorios académicos, limitando su capacidad para realizar experimentos controlados de preentrenamiento. Además, la falta de transparencia con respecto a los costos de formación previa en el mundo académico crea obstáculos adicionales, lo que dificulta que los investigadores planifiquen experimentos, propongan presupuestos de subvenciones realistas y asignen recursos de manera eficiente.

Los intentos anteriores de abordar los desafíos computacionales en la investigación de la IA incluyen encuestas Compute que exploran el acceso a los recursos y los impactos ambientales, pero que se centran principalmente en las comunidades de PNL. A continuación, las técnicas de optimización del entrenamiento dependen del ajuste manual con conocimientos especializados, mientras que sistemas como Deepspeed Autotune se centran en el tamaño de lote y en optimizaciones de fragmentación de modelos basadas en cero. Algunos investigadores han desarrollado recetas de preentrenamiento eficientes para modelos como variantes de BERT, logrando tiempos de entrenamiento más rápidos en GPU limitadas. Además, los estudios de recomendación de hardware han proporcionado orientación detallada sobre la selección de equipos, pero destacan métricas de rendimiento en lugar de consideraciones prácticas sobre el tiempo de capacitación. Estos enfoques aún deben abordar por completo la necesidad de soluciones independientes del modelo y centradas en la replicación que mantengan la integridad de la arquitectura original.

Investigadores de la Universidad de Brown han propuesto un enfoque integral para aclarar las capacidades previas a la formación en entornos académicos. Su metodología combina un estudio de los recursos computacionales de los investigadores académicos con mediciones empíricas de los tiempos de replicación del modelo. Se desarrolla un novedoso sistema de referencia que evalúa la duración del entrenamiento previo en diferentes GPU e identifica las configuraciones óptimas para una máxima eficiencia del entrenamiento. A través de una extensa experimentación que involucra 2000 horas de GPU, se obtienen mejoras significativas en la utilización de recursos. Los resultados destacan mejoras potenciales para la capacitación previa académica, y muestran que modelos como Pythia-1B se pueden replicar usando menos días de GPU de los requeridos originalmente.

El método propuesto utiliza una estrategia de optimización de doble categoría: métodos de almuerzo gratis y métodos de ahorro de memoria. Los métodos de almuerzo gratis representan optimizaciones con mejoras en el rendimiento y una posible reducción de la memoria sin perder rendimiento ni requerir la intervención del usuario. Estos incluyen la compilación de modelos, el uso de núcleos personalizados disponibles en el mercado como reemplazos directos para los módulos PyTorch y el uso del modo TF32 para operaciones matriciales. Por otro lado, los métodos de ahorro de memoria reducen el consumo de memoria, introduciendo algunas compensaciones de rendimiento que constan de tres componentes clave: puntos de control de activación, fragmentación de modelos y descarga. El sistema evalúa hasta 22 combinaciones únicas de métodos de ahorro de memoria mientras mantiene las optimizaciones de almuerzo gratis como base constante.

Los resultados empíricos muestran mejoras significativas con respecto a las predicciones analíticas iniciales, que son demasiado optimistas por un factor de 6 veces. Las pruebas iniciales muestran que 9 de 20 configuraciones de modelo de GPU no son factibles, y Pythia-1B requiere 41 días en 4 GPU A100 mediante una implementación ingenua. Sin embargo, después de implementar los métodos de configuración optimizados, la investigación logró una aceleración promedio de 4,3 veces en el tiempo de entrenamiento, reduciendo el entrenamiento de Pythia-1B a solo 18 días con la misma configuración de hardware. Además, el estudio revela un beneficio sorprendente: los métodos de ahorro de memoria, anteriormente asociados con la reducción de la velocidad, a veces mejoran el tiempo de entrenamiento hasta en un 71%, especialmente para GPU con memoria limitada o modelos más grandes.

En conclusión, los investigadores de la Universidad de Brown presentan un paso significativo para cerrar la creciente brecha computacional entre la industria y el mundo académico en la investigación de la IA. El estudio muestra que las instituciones académicas pueden entrenar modelos de mil millones de parámetros a pesar de las limitaciones de recursos. El código base desarrollado y el sistema de referencia proporcionan herramientas prácticas para que los investigadores evalúen y optimicen sus configuraciones de hardware antes de realizar inversiones sustanciales. Permite a los grupos académicos encontrar configuraciones de capacitación óptimas específicas para sus recursos disponibles y ejecutar pruebas preliminares en plataformas en la nube. Este trabajo marca un hito importante en el empoderamiento de los investigadores académicos para participar más activamente en el desarrollo de modelos de IA a gran escala.

Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️