Marco de agentes de IA asincrónicos: mejora de la interacción en tiempo real y la multitarea con una arquitectura FSM basada en eventos
Si bien los LLM de hoy en día pueden utilizar varias herramientas con habilidad, aún funcionan sincrónicamente y solo procesan una acción a la vez. Esta estricta configuración por turnos limita su capacidad para manejar múltiples tareas simultáneamente, lo que reduce la interactividad y la capacidad de respuesta. Por ejemplo, en un escenario hipotético con un asistente de viaje de IA, el modelo no puede responder a una consulta meteorológica rápida mientras prepara un itinerario detallado, lo que obliga a los usuarios a esperar. Aunque los avances recientes, como la API de voz en tiempo real de OpenAI, admiten algunas respuestas asincrónicas, una implementación más amplia está limitada por la falta de datos de entrenamiento específicos para el uso de herramientas asincrónicas, y aún quedan desafíos de diseño que superar.
El estudio se basa en la investigación de sistemas fundamentales, particularmente en ejecución asincrónica, sondeo versus interrupciones y sistemas en tiempo real, con influencias de trabajos de Dijkstra, Hoare y sistemas recientes como ROS. La ejecución asincrónica respalda la capacidad de respuesta de los agentes de IA, lo cual es crucial en entornos en tiempo real. En la IA generativa, el auge de los grandes modelos de acción (LAM), como xLAM, ha mejorado las capacidades de los agentes de IA, permitiendo el uso de herramientas y la llamada de funciones más allá de las aplicaciones LLM tradicionales. Nuevas herramientas como AutoGen y AgentLite también fomentan la cooperación entre múltiples agentes y la gestión de tareas, mejorando los marcos de coordinación. En particular, los avances en los modelos de voz y los sistemas de diálogo hablado mejoran aún más las capacidades interactivas en tiempo real de la IA.
Salesforce AI Research presenta un enfoque para agentes de IA asincrónicos, que les permite realizar múltiples tareas y utilizar herramientas en tiempo real. Este trabajo se centra en un marco de máquina de estados finitos impulsado por eventos para la ejecución e interacción eficiente de los agentes, mejorado con capacidades de reconocimiento automático de voz y conversión de texto a voz. A partir de programación concurrente y sistemas en tiempo real, la arquitectura admite cualquier modelo de lenguaje que produzca mensajes válidos, y Llama 3.1 y GPT-4o se ajustaron para un rendimiento óptimo. El estudio explora las compensaciones arquitectónicas, particularmente en la gestión del contexto, comparando métodos de bifurcación versus métodos de generación en entornos de IA controlados por eventos.
El marco de agente en tiempo real propuesto integra un entorno de ejecución asincrónico con una especificación de avisos estructurada similar a una división de hardware de software. Siempre que el LLM genere resultados de acuerdo con esta especificación, el entorno puede manejar llamadas a funciones e interacciones del usuario a través de periféricos de voz a texto (STT) y texto a voz (TTS). El núcleo de este sistema es una máquina de estados finitos (FSM) impulsada por eventos con programación prioritaria, denominada sistema de diálogo, que gestiona los estados conversacionales, la programación y el procesamiento de mensajes. Este sistema de diálogo está vinculado a un despachador responsable de la generación de LLM, la llamada de funciones y la gestión del contexto, con un libro mayor que actúa como un registro completo. STT y TTS admiten interacción basada en voz en tiempo real, pero el sistema también puede funcionar mediante entrada y salida de texto.
El marco introduce opciones de “bifurcación” y “generación” para manejar procesos paralelos y crear instancias simultáneas con contextos compartidos o únicos. Esto permite a los agentes trabajar en tareas complejas organizando dinámicamente jerarquías de múltiples agentes. El FSM prioriza el procesamiento de eventos para garantizar la capacidad de respuesta; Los eventos de alta prioridad, como las interrupciones del usuario, cambian directamente los estados para manejar la entrada inmediata del usuario. Se utiliza una extensión del lenguaje de marcado ChatML de OpenAI para la gestión de contexto asincrónica, agregando una función de “notificación” para actualizaciones en tiempo real y manejando interrupciones con tokens específicos. Este diseño admite una comunicación altamente interactiva en tiempo real al mantener un contexto preciso y garantizar transiciones fluidas entre los estados de generación, escucha, emisión e inactividad.
En conclusión, el estudio presenta un marco de agente de IA en tiempo real que mejora la interactividad a través de la ejecución asincrónica, permitiendo el uso simultáneo de herramientas y la multitarea, abordando las limitaciones de los sistemas secuenciales por turnos. Construida sobre una máquina de estado finito impulsada por eventos, esta arquitectura admite el uso de herramientas en tiempo real, interacción de voz y gestión de tareas con reloj. Ajuste fino de Llama 3.1 y GPT-4o a medida que los modelos de despacho mostraron una generación mejorada de libros de contabilidad precisos. mensajes. El diseño también destaca el potencial de una integración más estrecha con modelos multimodales para reducir aún más la latencia y mejorar el rendimiento. Las direcciones futuras incluyen la exploración de modelos de lenguaje multimodal y sistemas extendidos de múltiples agentes para tareas con tiempo limitado.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias– Del marco a la producción
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.
🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.