¿Está su agente de LLM preparado para empresas? Salesforce AI Research presenta CRMArena: un novedoso punto de referencia de IA diseñado para evaluar agentes de IA en tareas realistas basadas en entornos de trabajo profesionales
La gestión de relaciones con el cliente (CRM) se ha convertido en una parte integral de las operaciones comerciales como centro para gestionar las interacciones, los datos y los procesos de los clientes. La integración de IA avanzada en CRM puede transformar estos sistemas al automatizar procesos rutinarios, brindar experiencias personalizadas y optimizar los esfuerzos de servicio al cliente. A medida que las organizaciones adoptan cada vez más enfoques impulsados por la IA, ha aumentado la necesidad de agentes inteligentes capaces de realizar tareas complejas de CRM. Los modelos de lenguajes grandes (LLM) están a la vanguardia de este movimiento y mejoran potencialmente los sistemas CRM al automatizar tareas complejas de toma de decisiones y gestión de datos. Sin embargo, implementar estos agentes requiere puntos de referencia sólidos y realistas para garantizar que puedan manejar las complejidades típicas de los entornos CRM, que incluyen la gestión de objetos de datos multifacéticos y el seguimiento de protocolos de interacción específicos.
Las herramientas existentes, como WorkArena, WorkBench y Tau-Bench, proporcionan evaluaciones elementales del desempeño de los agentes de CRM. Aún así, estos puntos de referencia evalúan principalmente operaciones simples, como la navegación y el filtrado de datos, y no capturan las dependencias complejas y las interrelaciones dinámicas típicas de los datos de CRM. Por ejemplo, estas herramientas deben mejorar el modelado de relaciones entre objetos, como pedidos vinculados a cuentas de clientes o casos que abarcan múltiples puntos de contacto. Esta falta de complejidad impide que las organizaciones comprendan todas las capacidades de los agentes de LLM, lo que crea una necesidad continua de un marco de evaluación más completo. Uno de los desafíos clave en este campo es la falta de puntos de referencia que reflejen con precisión las tareas complejas e interconectadas requeridas en los sistemas CRM reales.
El equipo de investigación de IA de Salesforce abordó esta brecha introduciendo CRMArenaun sofisticado punto de referencia desarrollado específicamente para evaluar las capacidades de los agentes de IA en entornos CRM. A diferencia de las herramientas anteriores, CRMArena simula un sistema CRM del mundo real completo con interconexiones de datos complejas, lo que permite una evaluación sólida de los agentes de IA en tareas profesionales de CRM. El proceso de desarrollo implicó la colaboración con expertos en el dominio de CRM que contribuyeron al diseño de nueve tareas realistas basadas en tres personas distintas: agentes de servicio, analistas y gerentes. Estas tareas incluyen funciones esenciales de CRM, como monitorear el desempeño de los agentes, manejar consultas complejas de los clientes y analizar tendencias de datos para mejorar el servicio. CRMArena incluye 1170 consultas únicas en estas nueve tareas, lo que proporciona una plataforma integral para probar escenarios específicos de CRM.
La arquitectura de CRMArena se basa en un esquema de CRM modelado a partir de Service Cloud de Salesforce. El proceso de generación de datos produce un conjunto de datos interconectados de 16 objetos, como cuentas, pedidos y casos, con dependencias complejas que reflejan los entornos CRM del mundo real. Para mejorar el realismo, CRMArena integra variables latentes que replican condiciones comerciales dinámicas, como tendencias de compra estacionales y variaciones en las habilidades de los agentes. Este alto nivel de interconectividad, que implica un promedio de 1,31 dependencias por objeto, garantiza que CRMArena represente los entornos CRM con precisión, presentando a los agentes desafíos similares a los que enfrentarían en entornos profesionales. Además, la configuración de CRMArena admite acceso UI y API a sistemas CRM, lo que permite interacciones directas a través de llamadas API y un manejo de respuestas realista.
Las pruebas de rendimiento con CRMArena han revelado que los agentes LLM de última generación actuales tienen dificultades con las tareas de CRM. Utilizando el marco de indicaciones ReAct, el agente de mayor rendimiento logró solo un 38,2 % de finalización de tareas. Cuando se complementó con herramientas especializadas de llamada de funciones, el rendimiento mejoró hasta una tasa de finalización del 54,4%, lo que destaca una brecha de rendimiento significativa. Las tareas evaluadas incluyeron funciones desafiantes como la desambiguación de entidades nombradas (NED), la identificación de violaciones de políticas (PVI) y el análisis de tendencias mensuales (MTA), todas las cuales requerían que los agentes analizaran e interpretaran datos complejos. Por ejemplo, sólo el 90 % de los expertos en el dominio confirmaron que el entorno de datos sintéticos parecía auténtico, y más del 77 % calificó los objetos individuales dentro del sistema CRM como “realistas” o “muy realistas”. Estos conocimientos revelan lagunas críticas en la capacidad de los agentes de LLM para comprender las dependencias matizadas en los datos de CRM. Esta área debe abordarse para la implementación completa de CRM impulsado por IA.
La capacidad de CRMArena para ofrecer pruebas de alta fidelidad proviene de su proceso de garantía de calidad de dos niveles. El proceso de generación de datos está optimizado para mantener la diversidad entre varios objetos de datos, utilizando un enfoque de solicitud de mini lotes que limita la duplicación de contenido. Además, los procesos de control de calidad de CRMArena incluyen verificación de formato y contenido para garantizar la coherencia y precisión de los datos generados. En cuanto a la formulación de consultas, CRMArena consta de una combinación de consultas con respuesta y sin respuesta, y las consultas sin respuesta representan el 30% del total. Estos están diseñados para probar la capacidad de los agentes para identificar y manejar preguntas que no tienen solución, reflejando así fielmente los entornos CRM reales donde la información no siempre está disponible de inmediato.
Las conclusiones clave de la investigación sobre CRMArena incluyen:
- Cobertura de tareas de CRM: CRMArena incluye nueve tareas de CRM diversas que representan agentes de servicio, analistas y gerentes, y cubren más de 1170 consultas únicas.
- Complejidad de datos: CRMArena involucra 16 objetos interconectados, con un promedio de 1,31 dependencias por objeto, logrando realismo en el modelado de CRM.
- Validación del realismo: más del 90% de los expertos en el dominio calificaron el entorno de prueba de CRMArena como realista o muy realista, lo que indica la alta validez de sus datos sintéticos.
- Rendimiento de los agentes: los agentes líderes de LLM completaron solo el 38,2 % de las tareas utilizando indicaciones estándar y el 54,4 % con herramientas de llamada de funciones, lo que subraya los desafíos en las capacidades actuales de IA.
- Consultas sin respuesta: alrededor del 30% de las consultas de CRMArena no tienen respuesta, lo que empuja a los agentes a identificar y manejar adecuadamente la información incompleta.
En conclusión, la introducción de CRMArena destaca avances significativos y conocimientos clave en la evaluación de agentes de IA para tareas de CRM. CRMArena es un importante contribuyente a la industria CRM y ofrece un punto de referencia escalable, preciso y riguroso para evaluar el desempeño de los agentes en entornos CRM. Como demuestra la investigación, existe una brecha sustancial entre las capacidades actuales de los agentes de IA y los estándares de alto rendimiento requeridos en los sistemas CRM. El amplio marco de pruebas de CRMArena proporciona una herramienta necesaria para desarrollar y perfeccionar agentes de IA para satisfacer estas demandas.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS‘
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️