Optimización del modelo de lenguaje causal bidireccional para hacer que GPT y Llama sean resistentes contra la maldición de la inversión

A pesar de sus avanzadas capacidades de razonamiento, los últimos LLM a menudo no dan en el blanco al descifrar las relaciones. En este artículo exploramos la Maldición de reversiónun problema que afecta a los LLM en tareas como la comprensión y la generación. Para entender el tema de fondo, es un fenómeno que ocurre cuando se trata de dos entidades, denotado como a y bconectados por su relación R y su inversa. Los LLM se destacan en el manejo de secuencias como “aRb”, pero tienen dificultades con “b R inversa a”. Si bien los LLM pueden responder rápidamente preguntas como “¿Quién es la madre de Tom Cruise?” cuando se les pregunta, es más probable que tengan alucinaciones y vacilen cuando se les pregunta: “¿Quién es el hijo de Mary Lee Pfeiffer?” Esto parece sencillo, dado que la modelo ya conoce la relación entre Tom Cruise y Mary Lee Pfeiffer.

Investigadores de la Universidad Renmin de China han presentado la maldición revertida de los LLM a la comunidad investigadora, arrojando luz sobre sus causas probables y sugiriendo posibles estrategias de mitigación. Identifican la función objetivo del entrenamiento como uno de los factores clave que influyen en el alcance de la maldición de inversión.

Para comprender plenamente la maldición de la reversión, primero debemos comprender el proceso de formación de los LLM. Predicción del siguiente token (NTP) es el objetivo de preentrenamiento dominante para los grandes modelos de lenguaje actuales, como GPT y Llama. En modelos como GPT y Llama, las máscaras de atención durante el entrenamiento dependen de los tokens anteriores, lo que significa que cada token se centra únicamente en su contexto anterior, lo que hace imposible tener en cuenta los tokens posteriores. Como resultado, si a ocurre antes b en el corpus de entrenamiento, el modelo maximiza la probabilidad de b dada la probabilidad de a dado b. Por lo tanto, no hay garantía de que los LLM puedan proporcionar una alta probabilidad de a cuando se le presenta b. Por el contrario, los modelos GLM están pre-entrenados con relleno en blanco autorregresivo objetivos, donde la ficha enmascarada controla las fichas anteriores y posteriores, haciéndolas más resistentes a la maldición de reversión. Los autores sostienen que esta diferencia en la secuencia de entrenamiento es la causa fundamental del bajo rendimiento de los LLM con relaciones inversas.

Para probar esta hipótesis, los autores ajustaron los GLM en datos de “Nombre a descripción”, utilizando nombres ficticios y alimentando descripciones para recuperar información sobre las entidades.

Los GLM lograron aproximadamente un 80 % de precisión en esta tarea, mientras que la precisión de Llama fue del 0 %.

Para abordar esta cuestión, los autores proponen un método que adapta el objetivo formativo de los LLM a algo similar al ABI. Ajustaron los modelos usando Optimización del modelo de lenguaje causal bidireccional (BICO) aplicar ingeniería inversa a tareas matemáticas y problemas de traducción. BICO adopta un objetivo de relleno de espacios en blanco autorregresivo, similar a GLM, pero con modificaciones personalizadas diseñadas explícitamente para modelos de lenguaje causal. Los autores introdujeron incorporaciones de posición rotatoria (relativa) y modificaron la función de atención para hacerla bidireccional. Este método de ajuste mejoró la precisión del modelo en tareas de traducción inversa y resolución de problemas matemáticos.

En conclusión, los autores analizan la maldición de la reversión y proponen una estrategia de ajuste para mitigar este problema. Al adoptar un modelo de lenguaje causal con un objetivo similar al ABI, este estudio arroja luz sobre el bajo rendimiento reverso de los LLM. Este trabajo podría ampliarse aún más para examinar el impacto de técnicas avanzadas, como RLHF, en la maldición de inversión.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliariasDel marco a la producción


Adeeba Alam Ansari actualmente está cursando su doble titulación en el Instituto Indio de Tecnología (IIT) Kharagpur, donde obtuvo una licenciatura en Ingeniería Industrial y una maestría en Ingeniería Financiera. Con un gran interés en el aprendizaje automático y la inteligencia artificial, es una lectora ávida y una persona curiosa. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo real.

🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.

Leer más
Back to top button