Este documento de IA explora las herramientas AgentOps: mejora de la observabilidad y la trazabilidad en agentes autónomos basados ​​en FM del modelo básico

Los modelos básicos (FM) y los modelos de lenguaje grande (LLM) están revolucionando las aplicaciones de IA al permitir tareas como el resumen de texto, la traducción en tiempo real y el desarrollo de software. Estas tecnologías han impulsado el desarrollo de agentes autónomos que pueden realizar procesos complejos de toma de decisiones y procesos iterativos con una mínima intervención humana. Sin embargo, a medida que estos sistemas abordan tareas cada vez más multifacéticas, requieren mecanismos sólidos de observabilidad, trazabilidad y cumplimiento. Garantizar su confiabilidad se ha vuelto fundamental, especialmente a medida que crece la demanda de agentes autónomos basados ​​en FM en el mundo académico y la industria.

Un obstáculo importante para los agentes autónomos basados ​​en FM es su necesidad de una trazabilidad y observabilidad consistentes en todos los flujos de trabajo operativos. Estos agentes dependen de procesos complejos, integrando varias herramientas, módulos de memoria y capacidades de toma de decisiones para realizar sus tareas. Esta complejidad a menudo conduce a resultados subóptimos que son difíciles de depurar y corregir. Los requisitos reglamentarios, como la Ley de IA de la UE, añaden otra capa de complejidad al exigir transparencia y trazabilidad en los sistemas de IA de alto riesgo. El cumplimiento de dichos marcos es vital para ganarse la confianza y garantizar el despliegue ético de los sistemas de IA.

Las herramientas y marcos existentes brindan soluciones parciales, pero deben ofrecer observabilidad de un extremo a otro. Por ejemplo, LangSmith y Arize ofrecen funciones para monitorear los costos de los agentes y mejorar la latencia, pero no abordan la trazabilidad más amplia del ciclo de vida requerida para la depuración y el cumplimiento. De manera similar, marcos como SuperAGI y CrewAI permiten la colaboración y la personalización de agentes múltiples, pero carecen de mecanismos sólidos para monitorear las vías de toma de decisiones o rastrear los errores hasta su origen. Estas limitaciones requieren urgentemente herramientas que puedan proporcionar una supervisión integral durante todo el ciclo de vida de producción del agente.

Investigadores de Data61 de CSIRO, Australia, realizaron una revisión rápida de herramientas y metodologías en el ecosistema AgentOps para abordar estas brechas. Su estudio examinó las herramientas AgentOps existentes e identificó características clave para lograr observabilidad y trazabilidad en agentes basados ​​en FM. Basándose en sus hallazgos, los investigadores propusieron una descripción general completa de los datos de observabilidad y los artefactos rastreables que abarcan todo el ciclo de vida del agente. Su revisión subraya la importancia de estas herramientas para garantizar la confiabilidad del sistema, la depuración y el cumplimiento de marcos regulatorios como la Ley de IA de la UE.

La metodología empleada en el estudio implicó un análisis detallado de las herramientas que respaldan el ecosistema AgentOps. Los investigadores identificaron la observabilidad y la trazabilidad como componentes centrales para mejorar la confiabilidad de los agentes basados ​​en FM. Las herramientas AgentOps permiten a los desarrolladores monitorear los flujos de trabajo, registrar las interacciones de LLM y rastrear el uso de herramientas externas. Los módulos de memoria se destacaron como cruciales para mantener el contexto tanto a corto como a largo plazo, permitiendo a los agentes producir resultados coherentes en tareas de varios pasos. Otra característica importante es la integración de barreras de seguridad, que imponen restricciones éticas y operativas para guiar a los agentes hacia el logro de sus objetivos predefinidos. Las funciones de observabilidad, como el seguimiento de artefactos y el análisis a nivel de sesión, fueron fundamentales para la supervisión y la depuración en tiempo real.

El estudio reveló resultados que enfatizan la efectividad de las herramientas AgentOps para abordar los desafíos de los agentes basados ​​en FM. Estas herramientas garantizan el cumplimiento de los artículos 12, 26 y 79 de la Ley de IA de la UE mediante la implementación de capacidades integrales de registro y monitoreo. Los desarrolladores pueden rastrear cada decisión tomada por el agente, desde las entradas iniciales del usuario hasta los pasos intermedios y los resultados finales. Este nivel de trazabilidad no solo simplifica la depuración sino que también mejora la transparencia en las operaciones de los agentes. Las herramientas de observabilidad dentro del ecosistema AgentOps también permiten la optimización del rendimiento a través de análisis a nivel de sesión e información procesable, lo que ayuda a los desarrolladores a perfeccionar los flujos de trabajo y mejorar la eficiencia. Aunque en el documento no se proporcionaron mejoras numéricas específicas, se enfatizó constantemente la capacidad de estas herramientas para optimizar los procesos y mejorar la confiabilidad del sistema.

Los hallazgos de los investigadores de Data61 de CSIRO brindan una descripción general sistemática del panorama de AgentOps y su potencial para transformar el desarrollo de agentes basados ​​en FM. Su revisión ofrece información valiosa para los desarrolladores y partes interesadas que buscan implementar sistemas de IA confiables y compatibles centrándose en la observabilidad y la trazabilidad. El estudio subraya la importancia de integrar estas capacidades en las plataformas AgentOps, que sirven como base para crear agentes autónomos escalables, transparentes y confiables. A medida que la demanda de agentes basados ​​en FM continúa creciendo, las metodologías y herramientas descritas en esta investigación establecen un punto de referencia para avances futuros.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliariasDel marco a la producción


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.

Leer más
Back to top button