Mejora de la recuperación de texto: superación de las limitaciones de la incrustación de documentos contextuales

La recuperación de texto en el aprendizaje automático enfrenta desafíos importantes en el desarrollo de métodos efectivos para indexar y recuperar documentos. Los enfoques tradicionales se basaban en métodos de coincidencia léxica escasa como BM25, que utilizaba frecuencias de n-gramas. Sin embargo, estos modelos estadísticos tienen limitaciones a la hora de capturar relaciones semánticas y contexto. El método neuronal principal, una arquitectura de codificador dual, codifica documentos y consultas en un espacio latente denso para su recuperación. Sin embargo, es necesario mejorar la capacidad de utilizar fácilmente estadísticas de corpus anteriores, como la frecuencia inversa de documentos (IDF). Esta limitación hace que los modelos neuronales sean menos adaptables a dominios de recuperación específicos, ya que necesitan más dependencia del contexto que los modelos estadísticos.

Los investigadores han realizado varios intentos para abordar los desafíos en la recuperación de textos. Se han desarrollado modelos de incrustación de texto de Biencoder como DPR, GTR, Contriever, LaPraDoR, Instructor, Nomic-Embed, E5 y GTE para mejorar el rendimiento de recuperación. Algunos esfuerzos se han centrado en adaptar estos modelos a nuevos corpus en el momento de la prueba, proponiendo soluciones como muestreo de tramos no supervisado, capacitación en corpus de prueba y destilación de reclasificadores. Además, otros enfoques incluyen la agrupación de consultas antes del entrenamiento y la consideración del muestreo contrastivo por lotes como un problema de optimización global. También se han explorado técnicas de adaptación en tiempo de prueba, como la retroalimentación de pseudorelevancia, donde se utilizan documentos relevantes para mejorar la representación de la consulta.

Investigadores de la Universidad de Cornell han propuesto un enfoque para abordar las limitaciones de los modelos actuales de recuperación de texto. Los investigadores argumentan que las incrustaciones de documentos existentes carecen de contexto para casos de uso de recuperación específicos y sugieren que las incrustaciones de documentos deberían considerar tanto el documento en sí como los documentos vecinos. Para lograr esto, se desarrollan dos métodos complementarios, para crear incrustaciones de documentos contextualizados. El primer método introduce un objetivo de aprendizaje contrastivo alternativo que agrega explícitamente documentos vecinos a la pérdida contextual dentro del lote. El segundo método presenta una nueva arquitectura contextual que codifica directamente la información del documento vecino en la representación.

El método propuesto utiliza un enfoque de entrenamiento de dos fases: una gran fase de preentrenamiento débilmente supervisada y una fase corta supervisada. La configuración inicial para realizar experimentos utiliza una configuración pequeña con un transformador de seis capas, una longitud de secuencia máxima de 64 y hasta 64 tokens contextuales adicionales. Esto se evalúa en una versión truncada del punto de referencia BEIR, con varios tamaños de lotes y grupos. Para entornos grandes, se entrena un modelo único en secuencias de longitud 512 con 512 documentos contextuales y se evalúa en el punto de referencia MTEB completo. Los datos de entrenamiento incluyeron 200 millones de puntos de datos débilmente supervisados de fuentes de Internet y 1,8 millones de pares de documentos y consultas escritos por humanos de conjuntos de datos de recuperación. El modelo utiliza NomicBERT como columna vertebral, con 137M de parámetros.

El enfoque de procesamiento por lotes contextual demostró una fuerte correlación entre la dificultad del lote y el rendimiento posterior, donde los lotes más difíciles en el aprendizaje contrastivo conducen a una mejor aproximación del gradiente y un aprendizaje más efectivo. La arquitectura contextual ha mejorado el rendimiento en todos los conjuntos de datos posteriores, con mejoras en conjuntos de datos más pequeños y fuera del dominio, como ArguAna y SciFact. El modelo obtiene un rendimiento óptimo cuando se entrena a escala completa después de cuatro épocas en los conjuntos de metadatos de BGE. El modelo “cde-small-v1” obtuvo resultados de última generación en el punto de referencia MTEB en comparación con modelos del mismo tamaño, mostrando un rendimiento de integración mejorado en múltiples dominios como agrupación, clasificación y similitud semántica.

En este artículo, investigadores de la Universidad de Cornell propusieron un método para abordar las limitaciones de los modelos actuales de recuperación de texto. Este artículo consta de dos mejoras significativas a los modelos tradicionales de “biencoder” para generar incrustaciones. La primera mejora introduce un algoritmo para reordenar los puntos de datos de entrenamiento para crear lotes más desafiantes, lo que mejora el entrenamiento básico con modificaciones mínimas. La segunda mejora introduce una arquitectura de recuperación basada en corpus, lo que permite entrenar un modelo de incrustación de texto de última generación. Esta arquitectura contextual incorpora de manera efectiva información de documentos vecinos, abordando las limitaciones de las incrustaciones independientes del contexto.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos GenAI (promovida)

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos de GenAI: únase a más de 300 ejecutivos de GenAI de Bayer, Microsoft, Flagship Pioneering, para aprender cómo crear una búsqueda de IA rápida y precisa en el almacenamiento de objetos. (Promovido)