Tencent lanza el modelo Hunyuan-Large (Hunyuan-MoE-A52B): un nuevo modelo MoE de código abierto basado en transformadores con un total de 389 mil millones de parámetros y 52 mil millones de parámetros activos

Los modelos de lenguaje grande (LLM) se han convertido en la columna vertebral de muchos sistemas de inteligencia artificial y han contribuido significativamente a los avances en el procesamiento del lenguaje natural (PLN), la visión por computadora e incluso la investigación científica. Sin embargo, estos modelos presentan sus propios desafíos. A medida que aumenta la demanda de mejores capacidades de IA, también aumenta la necesidad de modelos más sofisticados y más grandes. El tamaño y los requisitos computacionales de los LLM hacen que la capacitación y la inferencia sean costosas, lo que lleva a los investigadores a explorar arquitecturas más eficientes. Una solución que ha ganado popularidad es el modelo Mixture of Experts (MoE), que mejora el rendimiento mediante la activación selectiva de componentes especializados. A pesar de su promesa, muy pocos modelos de MoE a gran escala han sido de código abierto para uso comunitario, lo que limita la innovación y las aplicaciones prácticas.

Tencent ha dado un importante paso adelante al lanzar Hunyuan-Large, que se afirma que es el modelo MoE abierto basado en transformador más grande disponible actualmente en la industria. Con un total de 389 mil millones de parámetros, de los cuales 52 mil millones están activos, Hunyuan-Large está diseñado para manejar contextos extremadamente grandes de hasta 256 mil tokens. Este modelo presenta una combinación sin precedentes de técnicas de vanguardia para abordar la PNL y tareas generales de IA, rivalizando y, en algunos casos, superando a otros modelos líderes como LLama3.1-70B y LLama3.1-405B. La contribución de Tencent es vital para la comunidad de IA, ya que proporciona un recurso que combina alto rendimiento con escalabilidad, ayudando tanto a los profesionales de la industria como a los investigadores a ampliar los límites de las capacidades de la IA.

Hunyuan-Large logra su impresionante rendimiento a través de una variedad de avances técnicos. El modelo está previamente entrenado con siete billones de tokens, incluidos 1,5 billones de tokens de datos sintéticos que mejoran el aprendizaje en diversos campos como las matemáticas, la codificación y el multilingüismo. Estos datos vastos y diversos permiten que el modelo se generalice de manera efectiva, superando a otros modelos de tamaños comparables. El uso de una estrategia mixta de enrutamiento experto, combinada con innovaciones como la compresión de caché de valor clave (KV) y una tasa de aprendizaje específica de expertos, distingue a Hunyuan-Large en términos de eficiencia. La compresión de caché KV reduce la sobrecarga de memoria durante la inferencia, lo que permite escalar el modelo de manera eficiente y al mismo tiempo conservar respuestas de alta calidad. Además, la tasa de aprendizaje específica de expertos permite que diferentes componentes del modelo se entrenen de manera más óptima, equilibrando la carga entre expertos compartidos y especializados.

El lanzamiento de Hunyuan-Large es importante por varias razones. No solo presenta una oportunidad de trabajar con un modelo MoE verdaderamente a gran escala, sino que también viene con una base de código de fuente abierta y puntos de control previamente entrenados, lo que lo hace accesible para futuras investigaciones y desarrollo. Los puntos de referencia muestran que Hunyuan-Large supera a los modelos existentes en tareas clave de PNL, como respuesta a preguntas, razonamiento lógico, codificación y comprensión lectora. Por ejemplo, supera al modelo LLama3.1-405B en el punto de referencia MMLU con una puntuación de 88,4 en comparación con el 85,2 de LLama. Este logro resalta la eficiencia del entrenamiento y la arquitectura de Hunyuan-Large, a pesar de tener menos parámetros activos. Al sobresalir en tareas que requieren una comprensión de contexto a largo plazo, Hunyuan-Large también aborda una brecha crucial en las capacidades LLM actuales, lo que lo hace particularmente útil para aplicaciones que necesitan manejar secuencias extendidas de texto.

Hunyuan-Large de Tencent es un hito en el desarrollo de modelos MoE basados ​​en transformadores. Con 389 mil millones de parámetros y mejoras técnicas como la compresión de caché KV y tasas de aprendizaje específicas de expertos, proporciona a la comunidad de IA una herramienta poderosa para futuras investigaciones y aplicaciones. El lanzamiento de este modelo representa un paso hacia hacer que la IA a gran escala sea más accesible y capaz, impulsando la innovación en diversos campos.


Mira el Papel, Códigoy Modelos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leer más
Back to top button