Investigadores de Microsoft presentan Magentic-One: un sistema modular multiagente centrado en mejorar la adaptabilidad de la IA y la finalización de tareas en pruebas comparativas

Los sistemas agentes son una rama progresiva de la inteligencia artificial que tiene como objetivo crear soluciones capaces de manejar de forma autónoma tareas complejas de varios pasos en diversos entornos. Estos sistemas van más allá del alcance típico de los modelos de aprendizaje automático al incorporar capacidades que les permiten percibir y actuar dentro de entornos digitales del mundo real, integrando conocimiento, razonamiento y procesos de toma de decisiones adaptables. Con avances sustanciales en los grandes modelos de lenguaje (LLM), como los que permiten la navegación web, el análisis de datos y la codificación, los sistemas agentes prometen aliviar a los usuarios de tareas técnicas o repetitivas. Estos modelos han encontrado aplicaciones prácticas en áreas tan diversas como la ingeniería de software y la investigación científica, adaptándose a interacciones en tiempo real que los sistemas más estáticos no logran gestionar de manera efectiva.

El problema principal que aborda la investigación implica permitir que los sistemas de IA funcionen de manera confiable en entornos de tareas complejas e impredecibles. Los enfoques tradicionales para los agentes autónomos enfrentan limitaciones significativas al realizar una transición fluida entre tareas como la recuperación de datos, la ejecución de código y la interacción con plataformas en línea. Estos entornos exigen acciones precisas y flexibilidad para adaptar los planes en función de cambios de errores de entrada o tareas. Con esta adaptabilidad, los sistemas de agente único pueden lograr una finalización eficiente de las tareas. Sin embargo, a menudo se atascan o repiten tareas debido a mecanismos insuficientes de manejo de errores o a la incapacidad de coordinar múltiples pasos de forma dinámica.

Muchos de los enfoques actuales de agente único intentan integrar estas funciones, pero a menudo no logran manejar el amplio espectro de tareas en escenarios más abiertos. Los sistemas de agente único pueden tener dificultades con flujos de trabajo complejos y transiciones dinámicas de tareas a pesar de incorporar LLM con capacidades multimodales. La incapacidad de planificar y replanificar adecuadamente a medida que las tareas evolucionan o encuentran errores limita la eficiencia de estos agentes en escenarios que exigen conjuntos de habilidades multifuncionales, como navegación de archivos, codificación o investigación basada en web. Los métodos existentes tienden a centralizar el control en una estructura monolítica, lo que provoca cuellos de botella que dificultan la flexibilidad y la adaptabilidad.

Se presentan los investigadores de Microsoft Research AI Frontiers Magentic-One, un sistema modular de múltiples agentes diseñado para superar estos obstáculos. Magentic-One presenta una arquitectura multiagente dirigida por un núcleo “orquestador”agente, responsable de planificar y coordinar entre agentes especializados como WebSurfer, FileSurfer, Coder y ComputerTerminal. Cada agente está configurado específicamente para administrar un dominio de tarea único, como navegación web, manejo de archivos o ejecución de código. El orquestador asigna tareas dinámicamente a estos agentes especializados, coordinando sus acciones en función de la progresión de las tareas y reevaluando estrategias cuando ocurren errores. Este diseño permite a Magentic-One manejar tareas ad hoc en un enfoque modular y organizado, lo que lo hace especialmente adecuado para aplicaciones adaptables.

El funcionamiento interno de Magentic-One revela un enfoque cuidadosamente estructurado. Orchestrator opera a través de dos niveles de gestión de tareas: un bucle exteriorque planifica el flujo general de tareas, y un bucle interiorque asigna tareas específicas a los agentes y evalúa su progreso. Estos bucles permiten al Orchestrator monitorear las acciones de cada agente, reiniciar procesos cuando sea necesario y redirigir tareas a otros agentes si surge un error o un cuello de botella. Este diseño ofrece una ventaja sobre los sistemas de agente único, ya que Magentic-One puede agregar o eliminar agentes según sea necesario sin interrumpir el flujo de trabajo de la tarea. Por ejemplo, si una tarea requiere buscar información específica, el orquestador puede asignarla al agente WebSurfer, mientras que FileSurfer puede participar en el procesamiento de documentos relacionados.

Magentic-One se probó en tres puntos de referencia exigentes: GAIA, AssistantBench y WebArena. En el punto de referencia GAIA, Magentic-One logró una tasa de finalización de tareas del 38%, mientras que en WebArena alcanzó el 32,8%. Para AssistantBench, Magentic-One logró una precisión del 27,7 %, con un desempeño competitivo con sistemas de última generación diseñados para estos puntos de referencia. La capacidad del sistema para manejar estas tareas con un mínimo ajuste específico muestra su potencial como solución de IA flexible y generalizable. Además, la modularidad de Magentic-One resultó ventajosa en experimentos de ablación, donde el rendimiento se mantuvo incluso cuando ciertos agentes se eliminaban de tareas específicas. Este enfoque modular resalta el potencial para crear sistemas adaptables de múltiples agentes capaces de generalizarse entre tipos de tareas y dominios.

Conclusiones clave de la investigación sobre Magentic-One:

Actuación: Logré tasas de finalización de tareas competitivas en GAIA (38%), WebArena (32,8%) y AssistantBench (27,7%), estableciéndolo como un sistema sólido de múltiples agentes para tareas complejas de múltiples pasos.
Arquitectura Modular: Cada agente de Magentic-One se especializa en un dominio de tareas (por ejemplo, navegación web, manejo de archivos), lo que permite una gestión de tareas flexible y coordinada.
Gestión dinámica de tareas: Orchestrator emplea un sistema de bucle externo e interno para la asignación y el monitoreo de tareas, lo que garantiza la adaptabilidad en el manejo de errores o el redireccionamiento de tareas según sea necesario.
Éxito de referencia: Capacidad demostrada en los puntos de referencia GAIA, AssistantBench y WebArena sin ajustes exhaustivos, lo que refleja su potencial como solución de IA generalizable.
Escalabilidad y extensibilidad: El diseño modular facilita la adición o eliminación de agentes, allanando el camino para futuras aplicaciones que requieran capacidades de tareas variadas sin alterar todo el sistema.

En conclusión, Magentic-One ejemplifica un salto adelante en la creación de sistemas de IA flexibles y multiagente capaces de resolver tareas complejas de forma autónoma. Aprovecha un diseño modular en el que cada agente se especializa en una tarea distinta, coordinada por un orquestador central que reasigna tareas dinámicamente según la complejidad y los requisitos de las mismas. Al lograr altas tasas de finalización de tareas y un rendimiento comparable al de los sistemas de última generación en tres puntos de referencia principales, Magentic-One demuestra la eficacia de las arquitecturas modulares de múltiples agentes. Su diseño aborda la necesidad de manejo de errores y adaptabilidad y permite una fácil expansión para incorporar nuevos agentes y capacidades.

Mira el Papel, Detallesy Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️