H-DPO: Avanzando en la alineación del modelo de lenguaje a través del control de entropía

Los modelos de lenguajes grandes (LLM) han demostrado capacidades excepcionales en diversas aplicaciones, pero su adopción generalizada enfrenta desafíos importantes. La principal preocupación surge de los conjuntos de datos de entrenamiento que contienen contenido variado, desenfocado y potencialmente dañino, incluido código malicioso e información relacionada con ciberataques. Esto crea una necesidad crítica de alinear los resultados del LLM con los requisitos específicos del usuario y al mismo tiempo evitar el uso indebido. Los enfoques actuales como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) intentan abordar estos problemas incorporando las preferencias humanas en el comportamiento modelo. Sin embargo, RLHF enfrenta limitaciones sustanciales debido a sus altos requisitos computacionales, la dependencia de modelos de recompensa complejos y la inestabilidad inherente de los algoritmos de aprendizaje por refuerzo. Esta situación requiere métodos más eficientes y confiables para perfeccionar los LLM mientras se mantiene su desempeño y se garantiza un desarrollo responsable de la IA.

Han surgido varios métodos de alineación para abordar los desafíos de ajustar los LLM con las preferencias humanas. Inicialmente, RLHF ganó prominencia mediante el uso de un modelo de recompensa entrenado con datos de preferencias humanas, combinado con algoritmos de aprendizaje por refuerzo como PPO para optimizar el comportamiento del modelo. Sin embargo, su implementación compleja y su naturaleza intensiva en recursos llevaron al desarrollo de la Optimización de Políticas Directas (DPO), que simplifica el proceso al eliminar la necesidad de un modelo de recompensa y utilizar en su lugar la pérdida binaria de entropía cruzada. Investigaciones recientes han explorado diferentes medidas de divergencia para controlar la diversidad de producción, centrándose particularmente en la divergencia α como una forma de equilibrar entre la divergencia KL inversa y la divergencia KL directa. Además, los investigadores han investigado varios enfoques para mejorar la diversidad de respuestas, incluidas técnicas de muestreo basadas en la temperatura, manipulación rápida y modificaciones de la función objetiva. La importancia de la diversidad se ha vuelto cada vez más relevante, especialmente en tareas donde la cobertura (la capacidad de resolver problemas a través de múltiples muestras generadas) es crucial, como en aplicaciones matemáticas y de codificación.

Investigadores de la Universidad de Tokio y Preferred Networks, Inc. presentan H-DPOuna modificación sólida del enfoque tradicional de DPO que aborda las limitaciones del comportamiento de búsqueda de modo. La innovación clave radica en controlar la entropía de la distribución de políticas resultante, lo que permite una captura más efectiva de los modos de distribución objetivo. La minimización de la divergencia KL inversa tradicional a veces puede no lograr un ajuste de búsqueda de modo adecuado al preservar la varianza al ajustar una distribución unimodal a un objetivo multimodal. H-DPO aborda esto introduciendo un hiperparámetro α que modifica el término de regularización, permitiendo una reducción deliberada de entropía cuando α < 1. Este enfoque se alinea con observaciones prácticas de que los LLM a menudo funcionan mejor con valores de temperatura más bajos durante la evaluación. A diferencia de los ajustes de temperatura posteriores al entrenamiento, H-DPO incorpora este ajuste de distribución directamente en el objetivo del entrenamiento, lo que garantiza una alineación óptima con el comportamiento deseado y al mismo tiempo mantiene la simplicidad de la implementación.

La metodología H-DPO introduce un enfoque sólido para el control de entropía en la alineación del modelo de lenguaje modificando el término de regularización de divergencia KL inversa. El método descompone la divergencia KL inversa en componentes de entropía y entropía cruzada, introduciendo un coeficiente α que permite un control preciso sobre la entropía de la distribución. La función objetivo para H-DPO se formula como JH-DPO, que combina la recompensa esperada con el término de divergencia modificado. Cuando α es igual a 1, la función mantiene el comportamiento estándar de DPO, pero establecer α por debajo de 1 fomenta la reducción de entropía. A través de la optimización restringida utilizando multiplicadores de Lagrange, la política óptima se deriva en función de la política de referencia y la recompensa, con α controlando la nitidez de la distribución. La implementación requiere una modificación mínima del marco DPO existente, que esencialmente implica la sustitución del coeficiente β por αβ en la función de pérdida, lo que lo hace muy práctico para aplicaciones del mundo real.

La evaluación experimental de H-DPO demostró mejoras significativas en múltiples puntos de referencia en comparación con el DPO estándar. El método se probó en diversas tareas, incluidos problemas de matemáticas de la escuela primaria (GSM8K), tareas de codificación (HumanEval), preguntas de opción múltiple (MMLU-Pro) y tareas de seguimiento de instrucciones (IFEval). Al reducir α a valores entre 0,95 y 0,9, H-DPO logró mejoras de rendimiento en todas las tareas. Las métricas de diversidad mostraron compensaciones interesantes: los valores de α más bajos dieron como resultado una diversidad reducida a la temperatura 1, mientras que los valores de α más altos aumentaron la diversidad. Sin embargo, la relación entre α y la diversidad resultó más compleja al considerar las variaciones de temperatura. En el punto de referencia GSM8K, H-DPO con α=0,8 logró una cobertura óptima a una temperatura de entrenamiento de 1, superando los mejores resultados del DPO estándar a una temperatura de 0,5. Es importante destacar que en HumanEval, los valores de α más grandes (α=1,1) mostraron un rendimiento superior para escenarios de muestreo extensos (k>100), lo que indica que la diversidad de respuestas jugó un papel crucial en el desempeño de las tareas de codificación.

H-DPO representa un avance significativo en la alineación del modelo de lenguaje, ofreciendo una modificación simple pero efectiva al marco DPO estándar. A través de su innovador mecanismo de control de entropía a través del hiperparámetro α, el método logra un comportamiento superior de búsqueda de modo y permite un control más preciso sobre la distribución de salida. Los resultados experimentales en varias tareas demostraron una mayor precisión y diversidad en los resultados del modelo, sobresaliendo particularmente en el razonamiento matemático y las métricas de cobertura. Si bien el ajuste manual de α sigue siendo una limitación, la sencilla implementación de H-DPO y su impresionante rendimiento lo convierten en una valiosa contribución al campo de la alineación de modelos de lenguaje, allanando el camino para sistemas de IA más eficaces y controlables.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliariasDel marco a la producción


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.

🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.

Leer más
Back to top button