Decodificación instructiva (ID): un nuevo método de IA que mejora la atención de los LLM ajustados por instrucción hacia las instrucciones proporcionadas durante la fase de generación sin ninguna actualización de parámetros

Los LM ajustados a las instrucciones han mostrado una notable generalización de tiro cero, pero a menudo fallan en tareas fuera de sus datos de entrenamiento. Estos LM, construidos sobre grandes conjuntos de datos y miles de millones de parámetros, destacan en el aprendizaje en contexto (ICL), generando respuestas basadas en unos pocos ejemplos sin necesidad de volver a capacitarse. Sin embargo, el alcance del conjunto de datos de entrenamiento limita su efectividad en tareas desconocidas. Técnicas como la ingeniería rápida y la diversificación de la producción ayudan a mejorar el rendimiento, pero requieren un esfuerzo significativo. Investigaciones recientes exploran la aplicación del efecto de anclaje cognitivo a los LM, lo que sugiere que enfatizar las indicaciones iniciales puede mejorar las respuestas específicas de la tarea y mejorar la fidelidad a las instrucciones.

Los investigadores de KAIST AI introdujeron la decodificación instructiva (ID), un método que mejora los LM ajustados por instrucciones sin actualizaciones de parámetros. ID utiliza “instrucciones ruidosas”, versiones alteradas de las instrucciones originales, para crear un enfoque contrastante para predecir el siguiente token. Al dirigir la salida del modelo en diferentes direcciones, especialmente usando instrucciones “opuestas”, ID mejora el rendimiento del modelo en todas las tareas. Los experimentos muestran mejoras significativas en la precisión, y los modelos más pequeños mejorados por ID superan a los más grandes. Este método mejora el cumplimiento de las instrucciones y mejora la calidad general de la respuesta, demostrando su eficacia en varios modelos y tareas.

El ajuste de instrucciones afina los LM previamente entrenados para seguir mejor las instrucciones del lenguaje natural, mejorando la generalización a tareas invisibles, especialmente en escenarios de disparo cero. Ampliar la variedad y complejidad de las tareas de capacitación mejora esta capacidad, aunque los modelos a menudo dependen en gran medida de conocimientos previamente entrenados. Investigaciones anteriores destacan que los LM son sensibles a instrucciones familiares, incluso a las que son engañosas, y esta sensibilidad se puede aprovechar mediante técnicas contrastivas. El contraste en la generación de texto, como la decodificación contrastiva, compara salidas de diferentes modelos o entradas para mejorar el rendimiento. Este estudio amplía estas ideas mediante el uso de instrucciones ruidosas para impulsar la generalización en LM sintonizados con instrucciones.

La decodificación instructiva mejora la generación de respuestas en modelos sintonizados con instrucciones al contrastar los resultados generados a partir de instrucciones ruidosas. Se basa en el efecto de anclaje, donde la información inicial influye en los juicios posteriores y aprovecha las diferencias entre las respuestas generadas a partir de instrucciones originales y alteradas. El método utiliza variantes de instrucciones ruidosas, como palabras truncadas, mezcladas o aleatorias, para engañar al modelo y al mismo tiempo garantizar la fidelidad de la tarea. Al comparar logits de instrucciones originales y ruidosas durante la decodificación, Instructive Decoding ayuda a los modelos a corregir sesgos y producir respuestas más alineadas con las instrucciones previstas, refinando su desempeño en tareas invisibles.

La configuración experimental utiliza los conjuntos de datos SUPNATINST y UNNATINST, evaluando modelos como Tk-Instruct, Alpaca y T0 en tareas como corrección de errores gramaticales y vinculación textual. Las métricas Rouge-L, Exact Match (EM), Label Adherence (LA) y Label Coherence (LC) evalúan el rendimiento. ID mejora constantemente los resultados, especialmente para modelos más grandes como Tk-XXL, mejorando LA y LC. Curiosamente, las instrucciones ruidosas mejoran la calidad de salida con ID a pesar de la degradación del rendimiento básico. Aunque el rendimiento específico de la tarea varía, la variante de instrucción “opuesta” resulta sólida en todas las tareas. En general, ID muestra ganancias significativas en todos los tamaños de modelo y tipos de tareas.

El estudio investiga los desafíos de la generalización de tareas invisibles en modelos de lenguaje adaptados a la instrucción. El método propuesto, ID, aprovecha el efecto de anclaje utilizando instrucciones “ruidosas” para contrarrestar los sesgos inherentes del modelo. Al contrastar las predicciones con las generadas a partir de instrucciones alteradas, la identificación mejora el rendimiento del modelo, particularmente con la variante ruidosa “opuesta”, que se desvía más de la entrada original. Los resultados empíricos muestran la eficacia del ID en múltiples tareas, con mejoras notables en la diversidad de predicciones. El enfoque no requiere actualizaciones de parámetros adicionales, lo que lo convierte en una herramienta práctica para mejorar el seguimiento de instrucciones en modelos de lenguaje.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.