NVIDIA AI lanza OpenMathInstruct-2: un conjunto de datos de ajuste de instrucciones matemáticas con 14 millones de pares de problemas y soluciones generados utilizando el modelo Llama3.1-405B-Instruct

Los modelos lingüísticos han logrado avances significativos en el razonamiento matemático, y los datos sintéticos desempeñan un papel crucial en su desarrollo. Sin embargo, el campo enfrenta desafíos importantes debido a la naturaleza de código cerrado de los conjuntos de datos matemáticos más grandes. Esta falta de transparencia genera preocupaciones sobre la filtración de datos y erosiona la confianza en los resultados de las pruebas comparativas, como lo demuestran las caídas de rendimiento cuando los modelos se prueban en conjuntos no publicados y distributivamente similares. Además, impide que los profesionales comprendan plenamente el impacto de la composición de datos y las elecciones algorítmicas. Si bien existen alternativas de código abierto, a menudo vienen con licencias restrictivas o limitaciones en cuanto a diversidad y niveles de dificultad. Estos problemas en conjunto impiden el progreso y una aplicación más amplia de las capacidades de razonamiento matemático en los modelos de lenguaje.

Se han desarrollado varios conjuntos de datos para mejorar las capacidades de razonamiento matemático de los modelos de lenguaje. NuminaMath y Skywork-MathQA ofrecen grandes colecciones de problemas de nivel competitivo con anotaciones en cadena de pensamiento y diversas técnicas de aumento. MuggleMath se centra en complicar y diversificar consultas, mientras que MetaMathQA emplea técnicas de arranque y razonamiento avanzado. MAmmoTH2 introdujo un método eficiente para extraer datos de instrucciones de corpus web previos al entrenamiento. Otros enfoques han ampliado los conjuntos de datos existentes, como MATH y GSM8K, mejorando significativamente la precisión del modelo.

Los métodos integrados en herramientas han ganado importancia, con el enfoque del Programa de Pensamientos (PoT) que combina texto y declaraciones de lenguaje de programación para la resolución de problemas. Sobre la base de este concepto, se han creado conjuntos de datos como OpenMathInstruct-1 e InfinityMATH, centrándose en soluciones de interpretación de código y razonamiento matemático programático. Estos diversos enfoques tienen como objetivo abordar las limitaciones de conjuntos de datos anteriores aumentando la diversidad de preguntas, los niveles de dificultad y la complejidad del razonamiento.

El enfoque propuesto por los investigadores de NVIDIA se basó en enfoques anteriores, utilizando soluciones basadas en cadenas de pensamiento y aumento de preguntas para crear un conjunto de datos sólido. Sin embargo, introduce varias innovaciones clave que lo diferencian del trabajo existente. En primer lugar, el método emplea modelos de peso abierto en lugar de modelos de lenguaje propietarios de código cerrado, lo que permite la publicación del conjunto de datos bajo una licencia permisiva. Este enfoque mejora la accesibilidad y la transparencia en el campo. En segundo lugar, proporciona nuevos conocimientos sobre aspectos críticos de la creación de conjuntos de datos, incluido el impacto de los datos de baja calidad, la eficacia de la capacitación sobre políticas y el diseño de formatos de soluciones. Por último, el método garantiza la precisión de los resultados a través de un proceso integral de descontaminación, utilizando un proceso basado en LLM capaz de detectar variaciones reformuladas de las preguntas del conjunto de pruebas, abordando así las preocupaciones sobre la fuga de datos y la validez de los puntos de referencia.

OpenMathInstruct-2 utiliza la familia de modelos Llama3.1 para generar datos sintéticos de ajuste de instrucciones matemáticas. El enfoque se perfecciona mediante cuidadosos estudios de ablación del conjunto de datos MATH, que revelan varias ideas clave. El formato de solución de cadena de pensamiento propuesto supera al formato de Llama en un 3,9 % y es un 40 % más corto. Los datos generados por un modelo docente sólido superan los datos sobre políticas de un modelo estudiantil más débil en un 7,8%. El método demuestra solidez hasta en un 20 % de los datos de baja calidad, y aumentar la diversidad de preguntas mejora significativamente el rendimiento.

El conjunto de datos se crea utilizando Llama-3.1-405B-Instruct para sintetizar soluciones para preguntas existentes de MATH y GSM8K y generar nuevos pares de preguntas y soluciones. Un proceso de descontaminación exhaustivo, que incluye la tubería lm-sys y la inspección manual, garantiza la integridad del equipo de prueba. El conjunto de datos resultante comprende 14 millones de pares de preguntas y soluciones, incluidas 592.000 preguntas sintetizadas, lo que lo hace aproximadamente ocho veces más grande que los conjuntos de datos de código abierto anteriores. La eficacia de OpenMathInstruct-2 queda demostrada por el rendimiento superior de los modelos ajustados: OpenMath2-Llama3.1-8B superó a Llama3.1-8B-Instruct en un 15,9 % en el punto de referencia MATH.

OpenMathInstruct-2 demuestra resultados impresionantes en varios puntos de referencia de razonamiento matemático. Los detalles del entrenamiento implican el uso del optimizador AdamW con tasas de aprendizaje específicas y disminución de peso. El modelo 8B se entrena en diferentes subconjuntos del conjunto de datos para comprender los efectos de escala de datos, mientras que el modelo 70B se entrena en un subconjunto de 5M debido a restricciones computacionales. La evaluación se realiza según un conjunto completo de puntos de referencia, incluidos GSM8K, MATH, AMC 2023, AIME 2024 y OmniMATH, que cubren una amplia gama de niveles de dificultad.

El impacto del escalado de datos muestra mejoras constantes en el rendimiento, incluso el subconjunto 1M superó a Llama3.1-8B-Instruct y NuminaMath-7B-CoT. El modelo OpenMath2-Llama3.1-8B, entrenado en el conjunto de datos completo, supera o iguala a Llama3.1-8B-Instruct en todos los puntos de referencia. Entre los modelos de código abierto, supera al NuminaMath-7B-CoT lanzado recientemente. El modelo 70B muestra mejoras en un subconjunto de puntos de referencia, lo que sugiere que la combinación de datos o el formato de solución podrían ser más adecuados para modelos más pequeños. En general, los resultados demuestran la eficacia del método OpenMathInstruct-2 para mejorar las capacidades de razonamiento matemático de los modelos de lenguaje.

El proyecto OpenMathInstruct-2 realiza contribuciones significativas al progreso del código abierto en el razonamiento matemático para modelos de lenguaje. Al publicar un conjunto de datos completo, modelos de alto rendimiento y código reproducible, avanza la comprensión del campo sobre la construcción efectiva de conjuntos de datos. La investigación revela ideas cruciales: la importancia de los formatos optimizados de cadena de pensamiento, las limitaciones de los datos sobre políticas para el ajuste supervisado, la solidez de los modelos ante soluciones incorrectas durante la capacitación y el papel fundamental de la diversidad de preguntas. Estos hallazgos, junto con rigurosos procesos de descontaminación, garantizan evaluaciones de referencia precisas. Este trabajo no solo proporciona recursos valiosos sino que también establece las mejores prácticas para desarrollar futuros conjuntos de datos y modelos de razonamiento matemático.

Mira el Papel y Conjunto de datos sobre abrazar la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.