Mejora del análisis de series temporales en modelos multimodales a través de representaciones visuales para obtener conocimientos más completos y rentabilidad

Los modelos básicos multimodales, como GPT-4 y Gemini, son herramientas eficaces para una variedad de aplicaciones porque pueden manejar formatos de datos distintos del texto, como imágenes. Sin embargo, estos modelos están infrautilizados cuando se trata de evaluar cantidades masivas de datos de series temporales multidimensionales, lo cual es esencial en industrias como la atención médica, las finanzas y las ciencias sociales. Las mediciones secuenciales realizadas a lo largo del tiempo, o datos de series temporales, son una rica fuente de información que los modelos actuales no utilizan en su totalidad. Esto indica una oportunidad desperdiciada de obtener conocimientos más profundos y complejos que podrían impulsar la toma de decisiones basada en datos en estos dominios.

Para ver datos de series temporales a través de gráficos, una investigación reciente de Google AI ha sugerido una solución única pero simple a este desafío mediante el uso de codificadores de visión ya presentes en los modelos multimodales. Este método transforma datos de series de tiempo en gráficos visuales y los introduce en el componente de visión del modelo en lugar de proporcionar secuencias numéricas sin procesar a los modelos, lo que frecuentemente resulta en un rendimiento deficiente. Esto elimina la necesidad de realizar más formación sobre el modelo, lo que podría resultar costoso y llevar mucho tiempo.

La investigación ha demostrado a través de evaluaciones empíricas que proporcionar datos de series temporales sin procesar en formato de texto no es tan eficaz como utilizar esta técnica visual. El importante ahorro de costos asociado con el uso de API modelo es uno de los principales beneficios de emplear representaciones visuales de datos de series temporales. En comparación con las secuencias basadas en texto de los mismos datos, se necesitan muchos menos tokens, que son unidades de información procesadas por el modelo, para la entrada visual cuando los datos se representan como gráficos, lo que resulta en una disminución de hasta el 90 % en los costos del modelo.

Un solo gráfico puede transmitir la misma información con significativamente menos tokens visuales en casos donde los datos de series temporales normalmente estarían representados por miles de tokens de texto, lo que no sólo hace que el proceso sea más eficiente sino también más rentable.

Se han utilizado pruebas de datos sintéticos para validar la premisa de que el uso de gráficos para visualizar datos de series de tiempo mejoraría el rendimiento del modelo. Tareas simples como determinar la forma funcional de datos limpios fueron el punto de partida de estos experimentos, que luego pasaron a desafíos más difíciles como derivar tendencias significativas a partir de diagramas de dispersión ruidosos. La resistencia de esta técnica ha sido demostrada por el desempeño del modelo en estos estudios controlados.

Los investigadores utilizaron la técnica para actividades de salud del consumidor en el mundo real, como detección de caídas, reconocimiento de actividades y evaluación de preparación para verificar aún más su generalización más allá de los datos sintéticos. Para que el modelo llegue a las conclusiones correctas sobre estas tareas, debe realizar un razonamiento de varios pasos sobre datos heterogéneos y ruidosos. La estrategia basada en la trama visual se mantuvo para funcionar mejor que la basada en texto, incluso con estos trabajos exigentes.

Los resultados demostraron que la adopción de representaciones visuales de datos de series temporales mejoró significativamente el rendimiento tanto en tareas sintéticas como en tareas del mundo real. El rendimiento aumentó hasta un 120% en tareas sintéticas conocidas como tareas de tiro cero, en las que los modelos no recibían ningún conocimiento previo. Los resultados mostraron una mejora significativamente mayor en las tareas del mundo real, con un aumento de rendimiento de hasta un 150 % con respecto al uso de datos de texto sin formato, como el reconocimiento de actividad y la detección de caídas.

En conclusión, estos resultados han demostrado la posibilidad de manejar datos complejos de series de tiempo utilizando las capacidades visuales innatas de modelos multimodales como GPT y Gemini. Se han utilizado gráficos para representar estos datos y este método no solo reduce los costos sino que también mejora el rendimiento, lo que lo convierte en una opción viable y escalable para una variedad de aplicaciones. Este enfoque permite aplicar modelos básicos de nuevas formas en campos donde los datos de series temporales son esenciales, lo que permite obtener conocimientos basados en datos más eficaces y eficientes.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos GenAI (promovida)

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos de GenAI: únase a más de 300 ejecutivos de GenAI de Bayer, Microsoft, Flagship Pioneering, para aprender cómo crear una búsqueda de IA rápida y precisa en el almacenamiento de objetos. (Promovido)