Salesforce AI Research presentó SFR-RAG: un modelo de 9 mil millones de parámetros que revoluciona la precisión contextual y la eficiencia en los marcos de recuperación de información de generación aumentada

La IA generativa ha surgido como un campo fundamental con el auge de los grandes modelos lingüísticos (LLM, por sus siglas en inglés). Estos modelos son capaces de producir resultados complejos basados en una variedad de indicaciones. Un área notable dentro de este dominio es la Generación Aumentada de Recuperación (RAG, por sus siglas en inglés), que integra información externa en los LLM para mejorar la precisión fáctica. RAG aborda específicamente la necesidad de producir información confiable y contextualmente relevante. Con los rápidos avances en esta área, los marcos RAG se han vuelto fundamentales para resolver tareas basadas en el conocimiento, donde se requieren modelos para generar respuestas basadas en fuentes externas. Esta dependencia de documentos externos ha impulsado a los investigadores a refinar y desarrollar modelos que puedan comprender mejor el contexto y entregar resultados con un mínimo de errores.

Sin embargo, a pesar de los avances, los modelos lingüísticos de gran tamaño necesitan ayuda para procesar información conflictiva o insuficiente. Muchos LLM son propensos a las alucinaciones, generando respuestas que son factualmente incorrectas o irrelevantes para el contexto proporcionado. En algunos casos, cuando se dispone de información contextual insuficiente, estos modelos recurren a su conocimiento previo, que puede no siempre estar en línea con los requisitos específicos de la tarea en cuestión. A menudo necesitan ayuda con el razonamiento de múltiples saltos, lo que requiere que infieran respuestas sintetizando múltiples fragmentos de contexto. A medida que aumenta la demanda de respuestas precisas y basadas en el contexto, la necesidad de modelos que puedan manejar eficientemente estas complejidades se vuelve crítica. El desafío sigue siendo mejorar la capacidad de estos modelos para procesar contextos externos sin generar información poco confiable u omitir citas esenciales.

Los enfoques existentes en la generación aumentada de recuperación implican un recuperador que localiza los documentos relevantes y un generador, a menudo un LLM, que procesa el contexto recuperado para generar respuestas. Estas configuraciones, aunque útiles, están limitadas de varias maneras. Por ejemplo, modelos como GPT-4o y Command-R+ dependen en gran medida de grandes cantidades de parámetros: 104 mil millones de parámetros para Command-R+ y 79,24 mil millones para GPT-4o. A pesar de su gran tamaño, estos modelos suelen tener dificultades cuando se presenta información contradictoria. Esto suele generar imprecisiones y una falla en el manejo de consultas sin respuesta, un inconveniente importante en escenarios que dependen del conocimiento. Los modelos existentes no están específicamente ajustados para priorizar la confiabilidad en sus resultados, por lo que a menudo se ven obligados a depender de datos previamente entrenados en lugar de recuperar información nueva y relevante.

Los investigadores de Salesforce AI Research presentaron un nuevo modelo llamado SFR-RAGun modelo de 9 mil millones de parámetros ajustado para la generación basada en el contexto. A pesar de su tamaño relativamente más pequeño que otros modelos, SFR-RAG fue diseñado para superar a sus contrapartes más grandes en tareas específicas que requieren respuestas aumentadas por la recuperación. El modelo está diseñado para minimizar la alucinación y manejar escenarios donde la información contextual es insuficiente o conflictiva. Al centrarse en reducir el recuento de parámetros mientras se mantiene un alto rendimiento, el equipo apuntó a introducir un modelo que fuera más eficiente sin sacrificar la precisión. El modelo SFR-RAG incorpora capacidades de llamada de funciones, lo que le permite interactuar dinámicamente con herramientas externas para recuperar información contextual de alta calidad.

El enfoque innovador de SFR-RAG incluye una nueva plantilla de chat que añade dos roles clave: “Pensamiento” y “Observación”. El rol de Pensamiento permite al modelo razonar a través de múltiples pasos internamente, mientras que el rol de Observación captura cualquier información externa recuperada por el modelo durante su proceso. Esta estructura permite a SFR-RAG diferenciar entre los pasos de procesamiento de información y generar respuestas precisas y fáciles de usar. El modelo también está ajustado para ser resistente a contextos de baja calidad o irrelevantes, lo que lo distingue de los LLM tradicionales que a menudo fallan en tales condiciones. La arquitectura de SFR-RAG le permite realizar un razonamiento complejo de múltiples saltos, sintetizando múltiples piezas de información recuperada para generar respuestas coherentes y objetivas.

Los resultados experimentales demostraron el éxito de SFR-RAG, particularmente en la suite de evaluación ContextualBench. Esta suite comprende siete tareas contextuales, incluidas HotpotQA, TriviaQA y TruthfulQA, diseñadas para probar la capacidad de los modelos para generar respuestas precisas y contextualmente relevantes. A pesar de tener muchos menos parámetros, SFR-RAG logró resultados de vanguardia en tres de estas siete tareas, superando a modelos más grandes como GPT-4o en áreas clave. Por ejemplo, en 2WikiHopQA, SFR-RAG mostró un aumento del 25% en el rendimiento en comparación con GPT-4o. También tuvo un rendimiento competitivo en otros puntos de referencia, incluidos Natural Questions y Musique. En particular, el rendimiento de SFR-RAG se mantuvo sólido incluso cuando se alteró la información contextual o cuando el contexto contenía información conflictiva. Esta resiliencia es crucial para aplicaciones donde es necesaria una recuperación precisa de la información, y los resultados subrayan la eficacia de la arquitectura de SFR-RAG.

En conclusión, SFR-RAG representa un avance importante en la generación aumentada de recuperación al abordar los problemas comunes que enfrentan los modelos más grandes. Su recuento de parámetros relativamente pequeño de 9 mil millones le permite operar de manera eficiente y al mismo tiempo mantener una alta precisión y confiabilidad. Al introducir características innovadoras como los roles de Pensamiento y Observación, SFR-RAG puede manejar razonamientos complejos de varios pasos y al mismo tiempo evitar los obstáculos de la alucinación y la generación de contexto irrelevante. Su impresionante desempeño en varios puntos de referencia, incluidos resultados de vanguardia en múltiples tareas, resalta el potencial de los modelos más pequeños y ajustados para generar resultados precisos y basados en el contexto. En el campo en evolución de la IA generativa, SFR-RAG representa un cambio hacia modelos más eficientes y confiables que pueden manejar mejor los desafíos del procesamiento del contexto externo.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)