CodePMP: un modelo de preferencia escalable, preentrenamiento para potenciar el razonamiento de modelos de lenguaje grande

Los modelos de lenguaje grandes (LLM) han logrado avances considerables en la comprensión y generación del lenguaje natural a través de técnicas escalables de preentrenamiento y ajuste. Sin embargo, persiste un desafío importante para mejorar las habilidades de razonamiento de los LLM, particularmente para tareas lógicas y matemáticas complejas. La escasez de datos de preferencia de alta calidad para ajustar los modelos de recompensa (RM) limita la efectividad de los enfoques de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), que son esenciales para mejorar el desempeño del LLM en el razonamiento. Esta falta de datos, cuya recopilación es costosa y requiere mucha mano de obra, obstaculiza la escalabilidad de los RM, lo que crea un cuello de botella crítico para mejorar las capacidades de LLM en tareas de razonamiento como la resolución de problemas y la toma de decisiones.

Las soluciones actuales para mejorar los modelos de recompensa, como el preentrenamiento del modelo de preferencia (PMP) de Anthropic, intentan abordar la eficiencia de los datos mediante el uso de conjuntos de datos a gran escala disponibles públicamente como los de Reddit o Wikipedia para el preentrenamiento. Sin embargo, estos conjuntos de datos no están diseñados para tareas específicas de razonamiento. Anotar datos para tareas de razonamiento, especialmente para problemas lógicos y matemáticos complejos, es difícil de escalar, lo que limita la aplicabilidad de los métodos existentes. Además, la complejidad computacional de estos modelos los hace poco prácticos para aplicaciones en tiempo real, y su dependencia de grandes cantidades de datos anotados por humanos limita aún más la escalabilidad. Como resultado, estos métodos tienen dificultades para ofrecer la eficiencia necesaria para afinar las tareas de razonamiento.

Los investigadores de la Universidad de la Academia de Ciencias de China presentaron CódigoPMPun novedoso método de preentrenamiento que genera datos de preferencias a gran escala a partir de código fuente disponible públicamente, diseñado específicamente para tareas de razonamiento. Al aprovechar la naturaleza estructurada y lógica del código, el método propuesto sintetiza millones de pares de código-preferencia para su uso en el entrenamiento de modelos de recompensa. Se emplean dos modelos de lenguaje, uno fuerte y otro débil, para generar respuestas de código elegidas y rechazadas para un mensaje determinado, creando un rico conjunto de datos para el entrenamiento previo. Este enfoque innovador supera las limitaciones de los métodos existentes al automatizar la generación de datos de preferencias, lo que mejora significativamente la eficiencia y escalabilidad del ajuste de RM. CodePMP permite que los modelos se generalicen mejor en las tareas de razonamiento, proporcionando una solución rentable que reduce la dependencia de datos anotados por humanos.

CodePMP implica dos componentes clave: Modelado de recompensas (RM) y Modelado de lenguaje (LM). En RM, el modelo se entrena en pares de código-preferencia, aprendiendo a clasificar las respuestas de mayor calidad sobre las de menor calidad mediante la pérdida de clasificación por pares. El componente LM se centra en entrenar solo las respuestas elegidas, lo que garantiza que el modelo conserve las capacidades generales de comprensión del lenguaje y al mismo tiempo mejore su rendimiento de razonamiento. El conjunto de datos de capacitación consta de 28 millones de archivos y 19 mil millones de tokens provenientes de GitHub, con una distribución equilibrada de respuestas elegidas y rechazadas para garantizar un aprendizaje imparcial. Este conjunto de datos de preentrenamiento escalable permite que el modelo se generalice de manera efectiva en múltiples tareas de razonamiento, lo que mejora la eficiencia del ajuste de RM.

CodePMP demostró mejoras significativas en el rendimiento del razonamiento en tareas de razonamiento lógico y matemático. Los modelos previamente entrenados con CodePMP superaron consistentemente a los que no lo tenían tanto en precisión de RM como en rendimiento Best-of-N. Estas mejoras se observaron en los tamaños de modelo 1.5B y 7B. Por ejemplo, en tareas de razonamiento matemático, el modelo logró una precisión sustancialmente mayor, y en tareas de razonamiento lógico, mostró una mayor capacidad para diferenciar entre pasos de razonamiento correctos e incorrectos. Los resultados destacan la eficacia de CodePMP para impulsar la eficiencia del ajuste de RM, lo que da como resultado una mejor generalización y rendimiento en diversos dominios de razonamiento.

En conclusión, CodePMP presenta un enfoque escalable y eficiente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes aprovechando los pares de código-preferencia generados a partir de código fuente disponible públicamente. Este método innovador aborda el desafío de los datos limitados específicos del razonamiento y mejora significativamente el ajuste del modelo de recompensa. Las mejoras logradas a través de CodePMP son sólidas en múltiples tareas de razonamiento, lo que indica que proporciona una solución escalable y rentable para mejorar el rendimiento de LLM en áreas que requieren un razonamiento complejo. El enfoque tiene potencial para mejorar las capacidades de los LLM en dominios como la resolución de problemas matemáticos, la deducción lógica y la toma de decisiones.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.