La investigación de Databricks Mosaic examina la generación aumentada de recuperación de contexto prolongado: cómo los principales modelos de IA manejan información expansiva para mejorar la precisión de la respuesta

La generación de recuperación aumentada (RAG) representa un gran avance en la capacidad de los modelos de lenguaje grandes (LLM) para realizar tareas con precisión mediante la incorporación de información externa relevante en sus flujos de trabajo de procesamiento. Este enfoque, que combina técnicas de recuperación de información con modelado generativo, ha tenido una utilidad cada vez mayor en aplicaciones complejas como la traducción automática, la respuesta a preguntas y la generación integral de contenido. Al incorporar documentos en los contextos de los LLM, RAG permite que los modelos accedan y utilicen fuentes de datos más extensas y matizadas, ampliando efectivamente la capacidad del modelo para manejar consultas especializadas. Esta técnica ha demostrado ser especialmente valiosa en industrias que requieren respuestas precisas e informadas, ofreciendo un potencial transformador para campos donde la precisión y la especificidad son primordiales.

Un desafío importante al que se enfrenta el desarrollo de grandes modelos lingüísticos es la gestión eficaz de una vasta información contextual. A medida que los LLM se vuelven más poderosos, también lo hace la demanda de su capacidad para sintetizar grandes volúmenes de datos sin perder la calidad de sus respuestas. Sin embargo, la incorporación de información externa extensa a menudo resulta en una degradación del rendimiento, ya que el modelo puede necesitar ayuda para retener información crítica en contextos prolongados. Este problema se agrava en escenarios de recuperación, donde los modelos deben extraer de bases de datos de información expansivas e integrarlas de manera coherente para generar resultados significativos. En consecuencia, optimizar los LLM para contextos de mayor duración es un objetivo de investigación crucial, especialmente porque las aplicaciones dependen cada vez más de interacciones de gran volumen y ricas en datos.

La mayoría de los enfoques RAG convencionales utilizan la incorporación de documentos en bases de datos vectoriales para facilitar una recuperación eficiente basada en similitudes. Este proceso normalmente implica dividir los documentos en partes recuperables que pueden coincidir con la consulta de un usuario según su relevancia. Si bien este método ha demostrado ser útil para contextos de longitud corta a moderada, muchos modelos de código abierto experimentan una disminución en la precisión a medida que aumenta el tamaño del contexto. Si bien algunos modelos más avanzados exhiben una precisión prometedora con hasta 32.000 tokens, persisten limitaciones a la hora de aprovechar longitudes de contexto aún mayores para mejorar consistentemente el rendimiento, lo que sugiere la necesidad de enfoques más sofisticados.

El equipo de investigación de Databricks Mosaic Research llevó a cabo una evaluación exhaustiva del rendimiento de RAG en una variedad de LLM comerciales y de código abierto, incluidos modelos bien considerados como GPT-4 de OpenAI, Claude 3.5 de Anthropic y Gemini 1.5 de Google. Esta evaluación puso a prueba el impacto de la longitud cada vez mayor del contexto, que va desde 2000 tokens hasta una cantidad sin precedentes de 2 millones de tokens, para evaluar qué tan bien varios modelos podrían mantener la precisión al manejar información contextual extensa. Al variar la duración del contexto en 20 LLM destacados, los investigadores intentaron identificar qué modelos demuestran un rendimiento superior en escenarios de contexto largo, haciéndolos más adecuados para aplicaciones que requieren síntesis de datos a gran escala.

La investigación empleó una metodología consistente en todos los modelos, incrustando fragmentos de documentos utilizando el modelo text-embedded-3-large de OpenAI y luego almacenando estos fragmentos en un almacén de vectores. Las pruebas del estudio se realizaron en tres conjuntos de datos especializados: Databricks DocsQA, FinanceBench y Natural Question, cada uno elegido por su relevancia para las aplicaciones RAG del mundo real. En la etapa de generación, estos fragmentos integrados se proporcionaron a una variedad de modelos generativos, donde el rendimiento se midió en función de la capacidad del modelo para producir respuestas precisas a las consultas de los usuarios mediante la integración de información recuperada del contexto. Este enfoque comparó la capacidad de cada modelo para manejar escenarios ricos en información de manera efectiva.

Los resultados mostraron una variación notable en el rendimiento entre los modelos. No todos se beneficiaron por igual de la extensión del contexto, ya que ampliar el contexto no mejoró consistentemente la precisión del RAG. La investigación encontró que modelos como o1-mini y o1-preview de OpenAI, GPT-4o, Claude 3.5 Sonnet y Gemini 1.5 Pro mostraron mejoras constantes, manteniendo altos niveles de precisión incluso hasta 100.000 tokens. Sin embargo, otros modelos, particularmente las opciones de código abierto como Qwen 2 (70B) y Llama 3.1 (405B), mostraron una degradación del rendimiento más allá de la marca de 32.000 tokens. Solo unos pocos de los últimos modelos comerciales demostraron capacidades consistentes en contextos prolongados, lo que revela que, si bien ampliar el contexto puede mejorar el rendimiento de RAG, muchos modelos aún enfrentan limitaciones sustanciales más allá de ciertos umbrales simbólicos. De particular interés, el modelo Gemini 1.5 Pro de Google mantuvo la precisión en contextos extremadamente largos, manejando hasta 2 millones de tokens de manera efectiva, una hazaña notable que no se observó ampliamente entre otros modelos probados.

El análisis de los patrones de falla de los modelos en escenarios de contexto prolongado proporcionó información adicional. Algunos modelos, como Claude 3 Sonnet, con frecuencia se negaron a responder debido a preocupaciones sobre el cumplimiento de los derechos de autor, especialmente a medida que aumentaba la duración del contexto. Otros modelos, incluido el Gemini 1.5 Pro, encontraron dificultades debido a filtros de seguridad demasiado sensibles, lo que provocó repetidas negativas a realizar determinadas tareas. Los modelos de código abierto también exhibieron patrones de falla únicos; Llama 3.1, por ejemplo, demostró fallas constantes en contextos con más de 64 mil tokens, a menudo al proporcionar contenido irrelevante o aleatorio. Estos resultados subrayan que los modelos de contexto largo fallan de varias maneras, dependiendo en gran medida de la duración del contexto y las demandas de las tareas, y sugieren áreas específicas para mejoras futuras.

Los hallazgos clave del estudio revelan el potencial y las limitaciones del uso de LLM de contexto largo para aplicaciones RAG. Si bien ciertos modelos de última generación, como o1 de OpenAI y Gemini 1.5 Pro de Google, mostraron una mejora constante en la precisión en contextos prolongados, la mayoría de los modelos solo demostraron un rendimiento óptimo en rangos más cortos, alrededor de 16.000 a 32.000 tokens. El equipo de investigación plantea la hipótesis de que los modelos avanzados como o1 se benefician de un mayor cálculo del tiempo de prueba, lo que les permite manejar preguntas complejas y evitar la confusión de documentos recuperados menos relevantes. Los hallazgos del equipo resaltan las complejidades de las aplicaciones RAG de contexto prolongado y brindan información valiosa para los investigadores que buscan perfeccionar estas técnicas.

Las conclusiones clave de la investigación incluyen:

  • Estabilidad del rendimiento: Sólo un grupo selecto de modelos comerciales, como el o1 de OpenAI y el Gemini 1.5 Pro de Google, mantuvieron un rendimiento constante hasta 100.000 tokens y más.
  • Disminución del rendimiento en modelos de código abierto: La mayoría de los modelos de código abierto, incluidos Qwen 2 y Llama 3.1, experimentaron caídas significativas en el rendimiento más allá de los 32.000 tokens.
  • Patrones de falla: Modelos como Claude 3 Sonnet y Gemini 1.5 Pro fallaron de manera diferente, con problemas como rechazo de tareas debido a filtros de seguridad o problemas de derechos de autor.
  • Desafíos de alto costo: RAG de contexto largo es costoso, con costos de procesamiento que oscilan entre $ 0,16 y $ 5 por consulta, según el modelo y la longitud del contexto.
  • Necesidades futuras de investigación: El estudio sugiere realizar más investigaciones sobre la gestión del contexto, el manejo de errores y la mitigación de costos en aplicaciones prácticas de RAG.

En conclusión, si bien la extensión del contexto presenta posibilidades interesantes para la recuperación basada en LLM, persisten limitaciones prácticas. Los modelos avanzados como el o1 de OpenAI y el Gemini 1.5 de Google son prometedores, pero una aplicabilidad más amplia en diversos modelos y casos de uso requiere un refinamiento continuo y mejoras específicas. Esta investigación marca un paso esencial hacia la comprensión de las compensaciones y los desafíos inherentes a la ampliación de los sistemas RAG para aplicaciones del mundo real.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leer más
Back to top button