Salesforce AI Research presenta Moirai-MoE: un modelo básico de series temporales de MoE que logra la especialización del modelo a nivel de token de forma autónoma

Los pronósticos de series temporales han sido durante mucho tiempo parte integral de las finanzas, la atención médica, la meteorología y la gestión de la cadena de suministro. Su principal objetivo es predecir puntos de datos futuros basados ​​en observaciones históricas, lo que puede resultar desafiante debido a la naturaleza compleja y variable de los datos de series temporales. Los avances recientes en el aprendizaje automático, en particular los modelos básicos, han transformado este dominio al crear modelos generalizados capaces de manejar varias series de tiempo sin capacitación especializada y específica de cada caso. Estos modelos básicos marcan un cambio significativo con respecto a los enfoques tradicionales que requerían múltiples modelos adaptados a conjuntos de datos específicos. Sin embargo, la diversidad en las características de las series temporales, como las variaciones en la frecuencia, la estacionalidad y los patrones subyacentes, continúa presentando desafíos sustanciales para el entrenamiento de modelos unificados.

Un problema clave en el pronóstico de series temporales es el manejo eficaz de la heterogeneidad de los datos. Los datos de series temporales de diferentes fuentes varían significativamente en cuanto a frecuencia, distribución y estructura. Los modelos de pronóstico actuales a menudo se basan en una especialización basada en frecuencias definida por humanos para abordar esta diversidad. Sin embargo, la frecuencia por sí sola no es un indicador confiable de un patrón de serie temporal, ya que datos con frecuencias similares pueden exhibir comportamientos distintos. Por el contrario, los datos con diferentes frecuencias pueden mostrar patrones similares. Este enfoque debe capturar la complejidad y diversidad inherentes a las series temporales del mundo real. Otro desafío radica en la naturaleza no estacionaria de los datos de series temporales, donde las propiedades estadísticas de los datos cambian con el tiempo, lo que dificulta modelar con precisión con agrupaciones basadas en frecuencia.

Los métodos de pronóstico de series temporales existentes intentan abordar la variabilidad de los datos con enfoques variados. Por ejemplo, modelos como TEMPO y UniTime incorporan indicaciones basadas en lenguaje para ayudar al modelo a discernir diferentes fuentes de datos, logrando una especialización limitada a nivel de conjunto de datos. Otros modelos, como TimesFM, mantienen diccionarios integrados de frecuencias específicas para ayudar a distinguir entre tipos de datos según la frecuencia. Sin embargo, muchos modelos, incluida la ampliamente reconocida serie Chronos, optan por una estructura generalizada sin módulos especializados, lo que aumenta la complejidad del modelo y las grandes exigencias de parámetros. El desafío con estos métodos es su incapacidad para capturar completamente la naturaleza diversa de los datos de series temporales, ya que la frecuencia por sí sola solo a veces se correlaciona con los patrones de datos subyacentes, lo que genera ineficiencias y compromete la precisión del modelo.

Investigadores de Salesforce AI Research, la Universidad Nacional de Singapur y la Universidad de Ciencia y Tecnología de Hong Kong introdujeron un modelo innovador llamado MOIRAI-MoE. MOIRAI-MoE integra una escasa combinación de expertos (MoE) dentro de su arquitectura Transformer, lo que permite la especialización a nivel de token sin heurísticas de frecuencia definidas por humanos. Este enfoque basado en datos minimiza la dependencia de capas predefinidas basadas en frecuencia y utiliza una única capa de proyección de entrada/salida, lo que permite que el modelo capture y represente automáticamente diversos patrones. Al lograr una especialización a nivel de token, MOIRAI-MoE proporciona una solución más flexible y eficiente capaz de representar mejor las características únicas de datos de series temporales variadas sin requerir modelos distintos para cada categoría de frecuencia.

La arquitectura de MOIRAI-MoE aprovecha una función de activación que asigna cada token a un experto apropiado dentro de las capas de Transformer basándose en la agrupación de tokens derivada de un modelo previamente entrenado. Este enfoque de agrupación se guía por la distancia euclidiana a los centroides, lo que permite que el mismo experto procese tokens con patrones similares, mientras que expertos especializados manejan tokens diversos. Al incorporar 32 redes de expertos, cada una de las cuales se centra en características únicas de series temporales, MOIRAI-MoE reduce efectivamente la sobrecarga computacional al tiempo que mejora su capacidad de generalizar entre diferentes tipos de datos. Este enfoque permite a MOIRAI-MoE sobresalir en la representación de datos de series temporales no estacionarias adaptándose dinámicamente a cambios de patrones dentro de los datos.

Amplias pruebas en 39 conjuntos de datos demostraron el rendimiento superior de MOIRAI-MoE tanto en escenarios de pronóstico en distribución como en escenarios de pronóstico cero. Para el pronóstico en distribución, MOIRAI-MoE superó a su contraparte de modelo denso hasta en un 17%, mostrando una mejora significativa en la precisión mientras utiliza hasta 65 veces menos parámetros activados que otros modelos líderes, incluidos TimesFM y Chronos. En el pronóstico de tiro cero, donde el modelo se probó en conjuntos de datos no incluidos en los datos de entrenamiento, el desempeño de MOIRAI-MoE superó a los modelos tradicionales. En estas pruebas, MOIRAI-MoE logró una mejora del 3 al 14 % en la puntuación de probabilidad clasificada continua (CRPS) y una mejora del 8 al 16 % en el error escalado absoluto medio (MASE) con respecto a los modelos anteriores. Estos resultados subrayan la sólida capacidad de generalización del modelo sin requerir capacitación para tareas específicas.

Esta investigación presenta conclusiones clave que resaltan los avances que MOIRAI-MoE aporta al pronóstico de series de tiempo:

  1. Especialización basada en datos: Al lograr una especialización a nivel de token a través de una escasa combinación de expertos, MOIRAI-MoE supera las limitaciones de la especialización de frecuencia definida por humanos, lo que permite una representación más matizada de la diversidad de series temporales.
  2. Eficiencia computacional: La escasa activación experta del modelo reduce drásticamente las demandas computacionales, logrando hasta 65 veces menos parámetros activados y manteniendo una alta precisión.
  3. Ganancias de rendimiento: Las pruebas en diversos conjuntos de datos confirmaron que MOIRAI-MoE supera los modelos densos y los modelos fundamentales como TimesFM y Chronos, logrando una mejora del 17 % con respecto a sus homólogos densos en las pruebas de distribución.
  4. Escalabilidad y generalización: MOIRAI-MoE demuestra un sólido rendimiento cero, lo que lo hace altamente aplicable a tareas de pronóstico del mundo real sin requerir capacitación especializada para cada aplicación, lo cual es fundamental en diversas aplicaciones como finanzas, atención médica y modelado climático.

En conclusión, MOIRAI-MoE representa un avance importante en el pronóstico de series temporales al introducir un enfoque flexible basado en datos que supera las limitaciones de la especialización basada en frecuencia. Con su escasa combinación de arquitectura experta, MOIRAI-MoE aborda la naturaleza diversa y no estacionaria de los datos de series temporales y logra importantes ganancias de rendimiento y eficiencia computacional. Este novedoso enfoque subraya el potencial de la especialización a nivel de token, allanando el camino para futuras mejoras en los modelos básicos de series de tiempo y ampliando la utilidad del pronóstico de tiro cero en diversas industrias y aplicaciones.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leer más
Back to top button