Investigadores de Writer presentan Writing in the Margins (WiM): un nuevo patrón de inferencia para modelos de lenguaje grandes diseñado para optimizar el manejo de secuencias de entrada largas en tareas orientadas a la recuperación

La inteligencia artificial (IA) y el procesamiento del lenguaje natural (PLN) han experimentado avances significativos en los últimos años, en particular en el desarrollo y la implementación de modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés). Estos modelos son esenciales para diversas tareas, como la generación de texto, la respuesta a preguntas y la síntesis de documentos. Sin embargo, si bien los LLM han demostrado capacidades notables, encuentran limitaciones al procesar secuencias de entrada largas. Las ventanas de contexto fijas inherentes a la mayoría de los modelos limitan su capacidad para manejar grandes conjuntos de datos, lo que puede afectar negativamente su desempeño en tareas que requieren la retención de información compleja y ampliamente distribuida. Este desafío requiere el desarrollo de métodos innovadores para extender las ventanas de contexto efectivas de los modelos sin sacrificar el rendimiento ni requerir recursos computacionales excesivos.

La cuestión clave de los LLM es mantener la precisión cuando se trabaja con grandes cantidades de datos de entrada, especialmente en tareas orientadas a la recuperación. A medida que aumenta el tamaño de la entrada, los modelos suelen tener dificultades para centrarse en la información relevante, lo que conduce a un deterioro del rendimiento. La tarea se vuelve más compleja cuando la información crítica está enterrada entre datos irrelevantes o menos importantes. Con un mecanismo para guiar el modelo hacia las partes esenciales de la entrada, a menudo se gastan recursos computacionales significativos en procesar secciones innecesarias. Los enfoques tradicionales para manejar contextos largos, como simplemente aumentar el tamaño de la ventana de contexto, son computacionalmente costosos y no siempre producen las mejoras deseadas en el rendimiento.

Se han propuesto varios métodos para abordar estas limitaciones. Uno de los enfoques más comunes es la atención dispersa, que centra selectivamente la atención del modelo en subconjuntos más pequeños de la entrada, lo que reduce la carga computacional. Otras estrategias incluyen la extrapolación de longitud, que intenta extender la longitud de entrada efectiva del modelo sin aumentar drásticamente su complejidad computacional. También se han empleado técnicas como la compresión de contexto, que condensa la información más importante de un texto determinado. Las estrategias de estímulo como la cadena de pensamiento (CoT) descomponen las tareas complejas en pasos más pequeños y manejables. Estos enfoques han logrado distintos niveles de éxito, pero a menudo van acompañados de compensaciones entre la eficiencia computacional y la precisión del modelo.

Los investigadores de Writer, Inc. introdujeron un nuevo patrón de inferencia llamado Escribir en los márgenes (WiM)Este método tiene como objetivo optimizar el rendimiento de los LLM en tareas que requieren la recuperación de contexto extenso mediante el aprovechamiento de una innovadora técnica de procesamiento por segmentos. En lugar de procesar simultáneamente toda la secuencia de entrada, WiM divide el contexto en fragmentos más pequeños y manejables. Durante el procesamiento de cada fragmento, las notas marginales intermedias guían al modelo. Estas notas ayudan al modelo a identificar información relevante y a realizar predicciones más informadas. Al incorporar este enfoque por segmentos, WiM mejora significativamente la eficiencia y la precisión del modelo sin necesidad de realizar ajustes.

El método WiM divide la entrada en fragmentos de tamaño fijo durante la fase de prellenado. Esto permite que la caché de clave-valor (KV) del modelo se rellene de forma incremental, lo que permite que el modelo procese la entrada de forma más eficiente. Este proceso genera notas al margen, que son resúmenes extractivos basados en consultas. Estas notas se reintegran luego en el resultado final, lo que proporciona al modelo información más detallada para guiar su razonamiento. Este enfoque minimiza la sobrecarga computacional al tiempo que mejora la comprensión del modelo de contextos largos. Los investigadores descubrieron que este método mejora el rendimiento del modelo y aumenta la transparencia de su proceso de toma de decisiones, ya que los usuarios finales pueden ver las notas al margen y comprender cómo el modelo llega a sus conclusiones.

En términos de rendimiento, WiM ofrece resultados impresionantes en varios puntos de referencia. Para tareas de razonamiento como HotpotQA y MultiHop-RAG, el método WiM mejora la precisión del modelo en un promedio del 7,5 %. Más notablemente, para tareas que implican agregación de datos, como el punto de referencia Common Words Extraction (CWE), WiM ofrece un aumento de más del 30 % en la puntuación F1, lo que demuestra su eficacia en tareas que requieren que el modelo sintetice información de grandes conjuntos de datos. Los investigadores informaron que WiM ofrece una ventaja significativa en aplicaciones en tiempo real, ya que reduce la latencia de las respuestas del modelo al permitir a los usuarios ver el progreso a medida que se procesa la entrada. Esta característica permite una salida temprana de la fase de procesamiento si se encuentra una respuesta satisfactoria antes de que se procese toda la entrada.

Los investigadores también implementaron WiM utilizando la biblioteca Hugging Face Transformers, lo que la hace accesible a una audiencia más amplia de desarrolladores de IA. Al publicar el código como código abierto, fomentan una mayor experimentación y desarrollo del método WiM. Esta estrategia se alinea con la tendencia creciente de hacer que las herramientas de IA sean más transparentes y explicables. La capacidad de ver resultados intermedios, como notas al margen, hace que sea más fácil para los usuarios confiar en las decisiones del modelo, ya que pueden comprender el razonamiento detrás de su resultado. En términos prácticos, esto puede ser especialmente valioso en campos como el análisis de documentos legales o la investigación académica, donde la transparencia de las decisiones de IA es crucial.

En conclusión, Writing in the Margins ofrece una solución novedosa y eficaz para los desafíos más importantes de los LLM: la capacidad de manejar contextos largos sin sacrificar el rendimiento. Al introducir el procesamiento por segmentos y la generación de notas al margen, el método WiM aumenta la precisión y la eficiencia en tareas de contexto largo. Mejora las habilidades de razonamiento, como lo demuestra un aumento de precisión del 7,5 % en tareas de razonamiento de múltiples saltos, y se destaca en tareas de agregación, con un aumento del 30 % en la puntuación F1 para CWE. Además, WiM brinda transparencia en la toma de decisiones de IA, lo que lo convierte en una herramienta valiosa para aplicaciones que requieren resultados explicables. El éxito de WiM sugiere que es una dirección prometedora para la investigación futura, en particular a medida que la IA continúa aplicándose a tareas cada vez más complejas que requieren el procesamiento de conjuntos de datos extensos.

Echa un vistazo a la Papel y página de GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)