HtmlRAG: mejora de los sistemas RAG con información semántica y estructural más rica a través de HTML

Se ha demostrado que la generación de recuperación aumentada (RAG) mejora las capacidades de conocimiento y reduce el problema de alucinaciones de los LLM. La Web es una fuente importante de conocimiento externo utilizado en RAG y muchos sistemas comerciales como ChatGPT. Sin embargo, las implementaciones actuales de RAG enfrentan un desafío fundamental en su enfoque de procesamiento de conocimientos. El método convencional de convertir documentos HTML en texto plano antes de enviarlos a los LLM resulta en una pérdida sustancial de información estructural y semántica. Esta limitación se vuelve evidente cuando se trata de contenido web complejo como tablas, donde el proceso de conversión altera el formato original y descarta etiquetas HTML cruciales que contienen información contextual importante.

Los métodos existentes para mejorar los sistemas RAG se han centrado en varios componentes y marcos. Las canalizaciones RAG tradicionales utilizan elementos como reescritores de consultas, recuperadores, reclasificadores, refinadores y lectores, tal como se implementan en marcos como LangChain y LlamaIndex. El método de procesamiento posterior a la recuperación se explora a través de refinadores abstractivos y basados en fragmentación para optimizar el contenido enviado a los LLM. Además, la investigación sobre la comprensión de datos estructurados ha demostrado la riqueza de información superior de las tablas HTML y Excel en comparación con el texto plano. Sin embargo, estas soluciones existentes enfrentan limitaciones cuando se trata de contenido HTML, ya que los métodos de fragmentación tradicionales no pueden manejar eficazmente la estructura HTML y los refinadores abstractivos luchan con contenido HTML largo y tienen altos costos computacionales.

Investigadores de la Escuela Gaoling de Inteligencia Artificial, la Universidad Renmin de China y Baichuan Intelligent Technology, China, han propuesto HtmlRAG, un método que utiliza HTML en lugar de texto plano como formato de conocimiento recuperado en sistemas RAG para preservar información semántica y estructurada más rica que falta en texto plano. Este método utiliza avances recientes en las capacidades de ventana contextual de los LLM y la versatilidad de HTML como formato que puede acomodar varios tipos de documentos como LaTeX, PDF y Word con una pérdida mínima de información. Además, los investigadores identificaron desafíos importantes en la implementación de este enfoque, en particular la gran longitud de los tokens de los documentos HTML sin procesar y la presencia de ruido en los estilos CSS, JavaScript y el formato de comentarios, que comprenden más del 90% de los tokens.

HtmlRAG implementa un mecanismo de poda de dos pasos para procesar documentos HTML recuperados de manera eficiente. Inicialmente, el sistema concatena todos los documentos HTML recuperados y los analiza en un único árbol DOM utilizando Beautiful Soup. Para abordar los desafíos computacionales que plantea la naturaleza detallada de los árboles DOM tradicionales, los investigadores desarrollaron una estructura optimizada de “árbol de bloques”. Este enfoque permite una granularidad ajustable controlada por un parámetro maxWords. Además, el proceso de construcción del árbol de bloques fusiona de forma recursiva nodos secundarios fragmentados en sus nodos principales, creando bloques más grandes y manteniendo la restricción del límite de palabras. Luego, el proceso de poda opera en dos fases distintas: la primera utiliza un modelo de incrustación para procesar la salida HTML limpia, seguida de un modelo generativo para un mayor refinamiento.

Los resultados muestran que el rendimiento superior de HtmlRAG en seis conjuntos de datos supera a los métodos de referencia en todas las métricas de evaluación. Los resultados muestran una utilización limitada de la información estructural en comparación con HtmlRAG al examinar los refinadores basados en fragmentación que siguen el enfoque de LangChain. Entre los reclasificadores, los perros perdigueros densos superaron al perro perdiguero disperso BM25, y el BGE basado en codificador mostró mejores resultados que el e5-mistral basado en decodificador. Además, los refinadores abstractivos muestran limitaciones notables: LongLLMLingua lucha con la optimización de documentos HTML y pierde información estructural en la conversión de texto plano, mientras que el lector JinaAI, a pesar de generar Markdown refinado a partir de la entrada HTML, enfrentó desafíos con la decodificación token por token y altas demandas computacionales. para secuencias largas.

En conclusión, los investigadores han introducido un enfoque llamado HtmlRAG que utiliza HTML como formato de conocimiento recuperado en sistemas RAG para preservar información semántica y estructurada rica que no está presente en texto plano. Las técnicas de limpieza y poda de HTML implementadas gestionan eficazmente la longitud del token y al mismo tiempo preservan la información estructural y semántica esencial. El rendimiento superior de HtmlRAG en comparación con los procesos tradicionales de recuperación posterior basados en texto sin formato valida la eficacia de utilizar el formato HTML para la recuperación de conocimientos. Los investigadores proporcionan una solución práctica inmediata y establecen una nueva dirección prometedora para futuros desarrollos en sistemas RAG, fomentando más innovaciones en métodos de procesamiento y recuperación de conocimientos basados en HTML.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS‘

Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️