Lista de modelos de gran combinación de expertos (MoE): arquitectura, rendimiento e innovaciones en soluciones de IA escalables

Los modelos de combinación de expertos (MoE) representan un avance significativo en el aprendizaje automático y ofrecen un enfoque eficiente para el manejo de modelos a gran escala. A diferencia de los modelos densos, donde todos los parámetros están activos durante la inferencia, los modelos MoE activan sólo una fracción de sus parámetros. Este enfoque equilibra la eficiencia computacional con la escalabilidad, lo que hace que los modelos MoE sean muy atractivos para diversos casos de uso. Los modelos MoE logran eficiencia al activar menos parámetros y al mismo tiempo mantener un mayor recuento total de parámetros. Este diseño introduce compensaciones únicas, incluida una mayor complejidad arquitectónica, pero proporciona una mayor flexibilidad para los desarrolladores e investigadores.

Exploremos los modelos MoE más grandes lanzados hasta la fecha, centrándonos en su arquitectura, capacidades y rendimiento relativo. Todos estos modelos están disponibles públicamente y superan los 100 mil millones de parámetros. El análisis está ordenado cronológicamente por fecha de lanzamiento, con clasificaciones proporcionadas cuando estén disponibles en la tabla de clasificación de LMSYS al 4 de noviembre de 2024.

El Switch-C Transformer de Google es uno de los primeros modelos en el espacio MoE. Lanzado en Hugging Face en noviembre de 2022, cuenta con la asombrosa cifra total de 1,6 billones de parámetros, respaldados por 2048 expertos. A pesar de ser uno de los primeros innovadores en este ámbito, Switch-C ahora se considera obsoleto, ya que no figura en los puntos de referencia modernos como LMSYS. Sin embargo, sigue siendo digno de mención como modelo fundamental del Ministerio de Educación y continúa influyendo en las innovaciones posteriores. También están disponibles variantes más pequeñas del Switch-C Transformer, que ofrecen puntos de entrada más accesibles para la experimentación.

En marzo de 2024, X AI lanzó Grok-1, un modelo con 314 mil millones de parámetros totales y 86 mil millones activos durante la inferencia. A diferencia de su predecesor, Grok-1 utiliza un grupo más pequeño de expertos, ocho en total, con sólo dos activos por tarea de inferencia. Su longitud de contexto de 8k es adecuada para secuencias de entrada moderadamente largas, aunque no compite con los modelos más nuevos. Si bien Grok-1 tiene una adopción limitada y no está clasificado en LMSYS, su sucesor, Grok-2, se ha mostrado prometedor en los puntos de referencia preliminares. Grok-2, que aún no se ha publicado públicamente, ocupa el quinto lugar en general en tareas específicas de LMSYS, lo que sugiere que futuras iteraciones de este modelo podrían redefinir los puntos de referencia de rendimiento en el panorama del MoE.

Poco después de Grok-1, Databricks lanzó DBRX a finales de marzo de 2024. Este modelo presenta 132 mil millones de parámetros totales, con 36 mil millones activos, repartidos en 16 expertos. Su longitud de contexto de 32k supera significativamente a muchos contemporáneos, lo que le permite procesar secuencias de entrada más largas de manera eficiente. DBRX es compatible con múltiples backends, incluidos llamacpp, exllama v2 y vLLM, lo que lo convierte en una opción versátil para los desarrolladores. A pesar de su sólida arquitectura, su clasificación LMSYS lo ubica solo en el puesto 90 en general y en el 78 en indicaciones difíciles en inglés, lo que indica margen de mejora en calidad y adopción.

En abril de 2024 se lanzó el Mixtral 8x22b de Mistral AI. Este modelo destaca por sus 141 mil millones de parámetros totales y 39 mil millones activos durante la inferencia. Incorpora ocho expertos, dos de los cuales se eligen dinámicamente en función de las aportaciones. Con una longitud de contexto de 64k, Mixtral es ideal para tareas que requieren un manejo extenso de entradas. Si bien su clasificación LMSYS, 70.º en general y 66.º en indicaciones difíciles, indica un rendimiento mediocre, su compatibilidad con múltiples backends garantiza la usabilidad en diversas plataformas.

Otro lanzamiento de abril fue Snowflake’s Arctic, un modelo del MoE con 480 mil millones de parámetros totales pero sólo 17 mil millones activos durante la inferencia. El diseño único del Ártico combina componentes escasos (7 mil millones) y densos (10 mil millones) distribuidos entre 128 expertos. Sin embargo, su rendimiento se queda corto, ubicándose en el puesto 99 en general en LMSYS y en un puesto 101 notablemente bajo en indicaciones difíciles. Su longitud de contexto limitada de 4k restringe aún más su aplicabilidad, lo que la convierte en una opción menos competitiva a pesar de su arquitectura innovadora.

Skywork se unió al espacio MoE en junio de 2024 con el lanzamiento de Skywork-MoE. Este modelo presenta 146 mil millones de parámetros totales, de los cuales 22 mil millones están activos, y emplea a 16 expertos durante la inferencia. Con una longitud de contexto de 8k, admite tareas moderadamente largas pero carece de clasificaciones LMSYS, lo que sugiere pruebas o adopción limitadas. El modelo base es la única versión disponible, ya que la variante de chat prometida aún no se ha lanzado.

En agosto de 2024, AI21 Labs lanzó Jamba 1.5 Large, un modelo híbrido que fusiona arquitecturas MoE y mamba-transformer. Con 398 mil millones de parámetros totales y 98 mil millones activos, Jamba 1.5 Large ofrece una longitud de contexto excepcional de 256 k, lo que lo hace ideal para tareas que requieren un procesamiento de entrada extenso. Su clasificación LMSYS refleja su alto rendimiento, ubicándose en el puesto 34 en general y en el 28 en indicaciones difíciles. Además, los modelos Jamba sobresalen en los puntos de referencia de contexto, en particular el punto de referencia de contexto RULER, lo que solidifica su reputación para tareas de contexto prolongado.

DeepSeek V2.5, lanzado en septiembre de 2024, actualmente lidera el espacio MoE en rendimiento. Este modelo incorpora 236 mil millones de parámetros totales, con 21 mil millones activos durante la inferencia. Su arquitectura incluye 160 expertos, de los cuales seis se eligen dinámicamente y dos se comparten, lo que da como resultado ocho parámetros activos. Con una longitud de contexto de 128k, DeepSeek V2.5 demuestra capacidades sólidas para tareas de contexto prolongado. Ocupa el puesto 18 en general en LMSYS y el 6 en indicaciones precisas, superando a todos los modelos MoE disponibles. Versiones anteriores, como DeepSeek V2, sentaron las bases de su éxito.

La incorporación más reciente a la familia MoE es Hunyuan Large de Tencent, lanzado en noviembre de 2024. Con 389 mil millones de parámetros totales y 52 mil millones activos, Hunyuan Large emplea un diseño único, donde se elige dinámicamente un experto y se comparte el otro. Esto da como resultado dos parámetros activos durante la inferencia. Su longitud de contexto de 128k coincide con la de DeepSeek V2.5, lo que lo posiciona como un fuerte competidor. Si bien aún no está clasificado en LMSYS, los primeros indicios sugieren que podría rivalizar o superar el rendimiento de DeepSeek.

Entre los modelos MoE discutidos, DeepSeek V2.5 es la opción más sólida disponible actualmente. Sin embargo, los modelos más nuevos como Hunyuan Large y el anticipado Grok-2 pronto podrían cambiar la clasificación. Modelos como Jamba 1.5 Large también resaltan las fortalezas de las arquitecturas híbridas, particularmente en tareas que requieren un manejo extenso del contexto. Las clasificaciones LMSYS, si bien son útiles para comparaciones iniciales, no capturan todos los matices del rendimiento del modelo, especialmente para tareas especializadas.

En conclusión, los modelos MoE representan una frontera creciente en IA, ofreciendo soluciones escalables y eficientes adaptadas a diversas aplicaciones. Se anima a los desarrolladores e investigadores a explorar estos modelos en función de casos de uso específicos, aprovechando sus arquitecturas únicas para optimizar el rendimiento. A medida que el campo evolucione, el panorama del MoE probablemente será testigo de más innovaciones, ampliando los límites de lo que estas arquitecturas pueden lograr.

Este artículo se basa en esto. publicación en Reddit. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias– Del marco a la producción

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.