Zyphra lanza Zamba2-1.2B-Instruct y Zamba2-2.7B-Instruct: una nueva serie de modelos de lenguaje pequeño de última generación que supera a Gemma2-2B-Instruct

La organización de investigación de IA Zyphra ha presentado recientemente dos modelos de lenguaje innovadores, Zamba2-1.2B-Instrucción y Zamba2-2.7B-Instrucción. Estos modelos son parte de la serie Zamba2 y representan avances significativos en el procesamiento del lenguaje natural y la instrucción basada en inteligencia artificial. Zamba2-1.2B-Instruct y Zamba2-2.7B-Instruct están diseñados para ofrecer capacidades mejoradas de chat de múltiples turnos y habilidades excepcionales para seguir instrucciones, brindando soluciones de vanguardia para diversas aplicaciones en el panorama de la IA.

Descripción general de Zamba2-1.2B-Instruct y sus capacidades

El modelo Zamba2-1.2B-Instruct, como su nombre indica, contiene 1,22 mil millones de parámetros, lo que le permite manejar tareas complejas de lenguaje natural mientras mantiene una huella computacional optimizada. Este modelo es una variante perfeccionada de Zamba2-1.2B-Instruct, que aprovecha conjuntos de datos de última generación como ultrachat_200k e Infinity-Instruct para un rendimiento superior. El proceso de ajuste incluye una metodología de dos etapas: Ajuste Supervisado (SFT) y Optimización de Preferencia Directa (DPO) del punto de control del modelo base. La etapa DPO emplea conjuntos de datos como ultrafeedback_binarized y OpenHermesPreferences para mejorar la capacidad del modelo para seguir instrucciones con precisión.

Zamba2-1.2B-Instruct presenta una arquitectura única de modelo híbrido de espacio de estados (SSM), que incorpora elementos de espacio de estados (Mamba2) y bloques transformadores. Esta estructura híbrida ofrece una versatilidad y eficiencia computacional excepcionales. Al integrar capas Mamba2 con bloques transformadores, Zamba2-1.2B-Instruct logra tiempos de generación rápidos y baja latencia de inferencia, lo que lo hace adecuado para aplicaciones que requieren respuestas en tiempo real.

Puntos de referencia de rendimiento de Zamba2-1.2B-Instruct

Zamba2-1.2B-Instruct sobresale en numerosos puntos de referencia, superando a los modelos más grandes de su categoría. Por ejemplo, en las puntuaciones de MT-Bench e IFEval, Zamba2-1.2B-Instruct eclipsa a Gemma2-2B-Instruct, que tiene más del doble de su tamaño, así como a otros modelos competitivos como StableLM-1.6B-Chat y SmolLM-1.7B. -Instruir. La arquitectura híbrida SSM contribuye significativamente a su sólido rendimiento, proporcionando un equilibrio entre los requisitos de recursos computacionales y la calidad de los resultados.

El modelo logra puntuaciones altas en varias métricas de evaluación, incluida una puntuación Aggregate MT-Bench de 59,53 y una puntuación IFEval de 41,45. Estos resultados son impresionantes, dado que el modelo mantiene un tamaño compacto con una huella de memoria significativamente menor que sus contrapartes solo con transformador.

Zamba2-2.7B-Instruct: Superando los límites

El lanzamiento de Zamba2-2.7B-Instruct, una variante más grande y avanzada de Zamba2, trae capacidades y mejoras adicionales. Con 2,69 mil millones de parámetros, este modelo aprovecha la misma arquitectura híbrida de elementos del espacio de estados de Mamba2 combinados con bloques transformadores e introduce mejoras en sus mecanismos de atención y estructura general. Zamba2-2.7B-Instruct se obtiene ajustando Zamba2-2.7B en conjuntos de datos de chat y seguimiento de instrucciones, lo que lo convierte en un potente modelo generalista adecuado para diversas aplicaciones.

Al igual que su contraparte más pequeña, Zamba2-2.7B-Instruct utiliza un enfoque de ajuste fino de dos etapas. La primera etapa involucra SFT en ultrachat_200k e Infinity-Instruct, mientras que la segunda etapa emplea DPO en conjuntos de datos como orca_dpo_pairs y ultrafeedback_binarized. El proceso de ajuste está diseñado para mejorar el rendimiento del modelo en tareas complejas de diálogo de múltiples turnos y seguimiento de instrucciones.

Análisis comparativo de rendimiento

Zamba2-2.7B-Instruct demuestra un salto sustancial en el rendimiento con respecto a modelos de tamaño similar o incluso mayor. Por ejemplo, logra una puntuación Aggregate MT-Bench de 72,40 y una puntuación IFEval de 48,02, superando significativamente a Mistral-7B-Instruct y Gemma2-2B-Instruct, que tienen puntuaciones Aggregate MT-Bench de 66,4 y 51,69, respectivamente. La arquitectura híbrida única del modelo garantiza una menor latencia de inferencia y tiempos de generación más rápidos, lo que lo convierte en una solución ideal para aplicaciones en dispositivos donde los recursos computacionales son limitados.

Además, Zamba2-2.7B-Instruct tiene una clara ventaja en cuanto al tiempo hasta el primer token (TTFT) y la velocidad de generación de salida. Esta eficiencia se logra utilizando una columna vertebral de capas Mamba2 entrelazadas con capas de atención compartida. Zamba2-2.7B-Instruct puede mantener la coherencia del rendimiento en distintas profundidades de su arquitectura minimizando el costo de los parámetros de estas capas de atención.

Innovaciones arquitectónicas

Ambos modelos de la serie Zamba2 implementan opciones de diseño innovadoras que los diferencian de otros en su categoría. La columna vertebral de la arquitectura consta de capas Mamba2 entrelazadas con capas de atención compartida, lo que minimiza el costo general de los parámetros. Esta estructura híbrida y la aplicación de matrices de proyección LoRA permiten que cada bloque compartido se especialice en su posición única manteniendo una sobrecarga de parámetros adicional relativamente pequeña.

Estas innovaciones de diseño dan como resultado modelos potentes y eficientes, que brindan a los usuarios lo mejor de ambos mundos: alto rendimiento y bajos requisitos computacionales. Esto hace que la serie Zamba2 sea particularmente adecuada para la implementación en escenarios con memoria y recursos informáticos limitados, como dispositivos móviles y de borde.

Aplicaciones prácticas y direcciones futuras

Con el lanzamiento de Zamba2-1.2B-Instruct y Zamba2-2.7B-Instruct, Zyphra ha logrado avances significativos en modelos de seguimiento de instrucciones basados en IA. Estos modelos tienen muchas aplicaciones potenciales, incluidos chatbots, asistentes personales y otros sistemas de inteligencia artificial conversacional. Su alto rendimiento y baja latencia los hacen ideales para escenarios de interacción en tiempo real, mientras que su pequeña huella de memoria garantiza que puedan implementarse en entornos con recursos limitados.

Zyphra planea continuar desarrollando la serie Zamba, y es probable que futuras actualizaciones incluyan más optimizaciones y expansiones de la arquitectura híbrida SSM y del transformador. Se espera que estos desarrollos impulsen lo que es posible en la comprensión y generación del lenguaje natural, solidificando la posición de Zyphra como líder en investigación y desarrollo de IA.

En conclusión, el lanzamiento de Zamba2-1.2B-Instruct y Zamba2-2.7B-Instruct marca un nuevo hito para Zyphra, al ofrecer modelos que combinan un rendimiento de vanguardia con un uso eficiente de los recursos computacionales. A medida que el campo de la IA continúa evolucionando, las innovaciones de Zyphra en arquitecturas híbridas probablemente sirvan como base para futuros avances en la IA y el procesamiento del lenguaje natural.

Mira el Instrucciones Zyphra/Zamba2-1.2B y Instrucciones Zyphra/Zamba2-2.7B. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.