AMD lanza AMD-135M: la primera serie de modelos de lenguaje pequeño de AMD entrenados desde cero en aceleradores AMD Instinct™ MI250 que utilizan tokens 670B

AMD ha presentado recientemente su nuevo modelo de lenguaje, AMD-135M o AMD-Llama-135Mque es una adición importante al panorama de los modelos de IA. Basado en la arquitectura del modelo LLaMA2, este modelo de lenguaje cuenta con una estructura robusta con 135 millones de parámetros y está optimizado para el rendimiento en las últimas GPU de AMD, específicamente la MI250. Este lanzamiento marca un hito crucial para AMD en su esfuerzo por establecer una posición sólida en la competitiva industria de la IA.

Antecedentes y especificaciones técnicas

El AMD-135M está construido sobre la arquitectura del modelo LLaMA2 y está integrado con funciones avanzadas para admitir diversas aplicaciones, particularmente en generación de texto y comprensión de idiomas. El modelo está diseñado para funcionar a la perfección con la biblioteca Hugging Face Transformers, haciéndolo accesible para desarrolladores e investigadores. El modelo puede manejar tareas complejas con un tamaño oculto de 768, 12 capas (bloques) y 12 cabezales de atención manteniendo una alta eficiencia. La función de activación utilizada es la función Swiglu y la normalización de capas se basa en RMSNorm. Su incrustación posicional está diseñada utilizando el método RoPE, mejorando su capacidad para comprender y generar información contextual con precisión.

El lanzamiento de este modelo no se trata sólo de las especificaciones de hardware sino también del software y los conjuntos de datos que lo impulsan. AMD-135M ha sido entrenado previamente en dos conjuntos de datos clave: los conjuntos de datos SlimPajama y Project Gutenberg. SlimPajama es una versión deduplicada de RedPajama, que incluye fuentes como Commoncrawl, C4, GitHub, Books, ArXiv, Wikipedia y StackExchange. El conjunto de datos del Proyecto Gutenberg proporciona acceso a un vasto depósito de textos clásicos, lo que permite que el modelo comprenda diversas estructuras lingüísticas y vocabularios.

Características clave de AMD-135M

AMD-135M tiene características notables que lo diferencian de otros modelos del mercado. Algunas de estas características clave incluyen:

Tamaño del parámetro: 135 millones de parámetros, lo que permite un procesamiento y generación de texto eficiente.
Número de capas: 12 capas con 12 cabezales de atención para un análisis en profundidad y comprensión contextual.
Tamaño oculto: 768, que ofrece la capacidad de manejar diversas tareas de modelado de lenguaje.
Tipo de atención: atención de múltiples cabezales, que permite que el modelo se centre en diferentes aspectos de los datos de entrada simultáneamente.
Tamaño de la ventana de contexto: 2048, lo que garantiza que el modelo pueda gestionar eficazmente secuencias de datos de entrada más grandes.
Conjuntos de datos de preentrenamiento y ajuste: Los conjuntos de datos SlimPajama y Project Gutenberg se utilizan para el entrenamiento previo, y el conjunto de datos StarCoder se utiliza para realizar ajustes, lo que garantiza una comprensión integral del lenguaje.
Configuración de entrenamiento: El modelo emplea una tasa de aprendizaje 6e-4 con un programa de tasa de aprendizaje coseno y ha pasado por múltiples épocas para un entrenamiento y ajuste efectivos.

Implementación y uso

El AMD-135M se puede implementar y utilizar fácilmente a través de la biblioteca Hugging Face Transformers. Para la implementación, los usuarios pueden cargar el modelo utilizando los módulos `LlamaForCausalLM` y `AutoTokenizer`. Esta facilidad de integración lo convierte en una opción favorable para los desarrolladores que buscan incorporar capacidades de modelado de lenguaje en sus aplicaciones. Además, el modelo es compatible con la decodificación especulativa para CodeLlama de AMD, ampliando aún más su usabilidad para tareas de generación de código. Esta característica hace que AMD-135M sea particularmente útil para los desarrolladores que trabajan en la generación de texto relacionado con la programación u otras aplicaciones de PNL.

Evaluación de desempeño

El rendimiento de AMD-135M se ha evaluado utilizando el arnés de evaluación de películas en varios puntos de referencia de PNL, como SciQ, WinoGrande y PIQA. Los resultados indican que el modelo es altamente competitivo y ofrece un rendimiento comparable a otros modelos en su rango de parámetros. Por ejemplo, logró una tasa de aprobación de aproximadamente el 32,31 % en el conjunto de datos de Humaneval utilizando GPU MI250, un sólido indicador de rendimiento para un modelo de este tamaño. Esto demuestra que AMD-135M puede ser un modelo confiable para aplicaciones comerciales y de investigación en el procesamiento del lenguaje natural.

En conclusión, el lanzamiento de AMD-135M subraya el compromiso de AMD de avanzar en las tecnologías de IA y proporcionar modelos accesibles y de alto rendimiento para la comunidad de investigación. Su arquitectura robusta y sus técnicas de entrenamiento avanzadas posicionan al AMD-135M como un competidor formidable en el panorama en rápida evolución de los modelos de IA.

Mira el Modelo abrazando la cara y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.