Investigadores de la Universidad de Pekín presentan un nuevo punto de referencia de IA para evaluar la comprensión y el procesamiento numérico en modelos de lenguaje grandes
Los modelos de lenguajes grandes (LLM) han revolucionado la inteligencia artificial, mostrando destreza en el manejo de tareas matemáticas y de razonamiento complejas. Sin embargo, estos modelos enfrentan desafíos fundamentales en la comprensión numérica básica, un área a menudo esencial para el razonamiento matemático más avanzado. Los investigadores exploran cada vez más cómo los LLM manejan conceptos numéricos como decimales, fracciones y notación científica. Las aplicaciones potenciales de una sólida comprensión numérica abarcan campos como las finanzas, la física y el razonamiento cotidiano, lo que subraya la importancia de perfeccionar las habilidades numéricas de los LLM.
El desafío principal radica en la tendencia de los LLM a producir errores numéricos a pesar de sus impresionantes capacidades. Por ejemplo, pueden comparar incorrectamente 9.11 como mayor que 9.9 o fallar en aritmética simple, aunque estos errores puedan parecer triviales. Estos problemas comprometen la confiabilidad de los modelos en aplicaciones del mundo real. Este problema tiene sus raíces en la necesidad de un enfoque más integral en la capacidad de procesamiento y comprensión numérica (NUPA) de estos modelos, que es esencial no solo para la aritmética sino también como base para capacidades de razonamiento más amplias. Por lo tanto, se necesita un método para evaluar y mejorar sistemáticamente NUPA en los LLM.
Si bien las evaluaciones actuales de los LLM examinan sus habilidades de razonamiento y resolución de problemas, la mayoría necesita aislar y medir específicamente la comprensión numérica. Los puntos de referencia existentes, como GSM8k, a menudo combinan tareas numéricas con evaluaciones de razonamiento más amplias, lo que dificulta evaluar qué tan bien los LLM manejan los números de forma independiente. Además, estas pruebas utilizan con frecuencia aritmética simplificada, como problemas basados en números enteros, que están muy alejados de la complejidad del mundo real que involucra varios formatos numéricos. Con puntos de referencia específicos, los investigadores pueden identificar con precisión las debilidades o perfeccionar los LLM para tareas numéricas prácticas que requieren precisión y comprensión contextual.
Investigadores de la Universidad de Pekín introdujeron un punto de referencia especializado para medir NUPA en los LLM. Este punto de referencia evalúa cuatro formatos numéricos comunes (enteros, fracciones, números de punto flotante y notación científica) en 17 categorías de tareas distintas. Al hacerlo, el punto de referencia pretende cubrir casi todos los escenarios de comprensión numérica del mundo real. El punto de referencia no se basa en herramientas externas, por lo que evalúa la NUPA autónoma de los LLM. Este trabajo realizado por investigadores de la Universidad de Pekín contribuye al campo al establecer una base para mejorar el desempeño de los LLM en una amplia gama de tareas numéricas.
Para evaluar exhaustivamente la NUPA de los LLM, los investigadores emplearon varias técnicas de preentrenamiento para medir el desempeño de las tareas e identificar debilidades; las técnicas incluyeron el uso de tokenizadores especiales y codificación posicional (PE) para abordar la complejidad numérica. Por ejemplo, los investigadores probaron tareas de números enteros, fraccionarios y de punto flotante utilizando tokenizadores de un dígito, tokenizadores de varios dígitos y técnicas de tokenización aleatoria, y descubrieron que los tokenizadores más simples a menudo producían una mayor precisión. El estudio también introdujo métodos de regularización de longitud para evaluar si estas técnicas podrían ayudar a los modelos a procesar números más largos sin degradación de la precisión. Al implementar estas modificaciones en LLM a pequeña escala y realizar pruebas en categorías de tareas complejas, los investigadores evaluaron cómo varias representaciones numéricas impactan la capacidad de los LLM para alinear y procesar números de manera efectiva.
La investigación arrojó resultados notables, revelando tanto las fortalezas como las limitaciones significativas de los LLM actuales en el manejo de tareas numéricas. Modelos como GPT-4o funcionaron bien en tareas más simples que involucraban números enteros cortos y aritmética básica, logrando una precisión cercana al 100% en los rangos más cortos. Sin embargo, el rendimiento disminuyó drásticamente a medida que aumentó la complejidad, como tareas que implicaban notación científica o secuencias numéricas más extendidas. Por ejemplo, la precisión de GPT-4o cayó de casi el 100% en una simple suma de números enteros a alrededor del 15% en tareas más complejas que requieren secuencias más largas. Además, los experimentos demostraron que incluso tareas comunes como la suma de números enteros sufrían reducciones drásticas en la precisión a medida que aumentaba el número de dígitos, del 80% en rangos de longitud media a solo el 5% en rangos más largos. Los modelos Qwen2 y Llama-3.1, que luchaban con fracciones y tareas específicas de dígitos, mostraron limitaciones similares.
Además, la longitud sigue siendo un desafío crucial. Para las tareas que involucraban números enteros y fracciones, la precisión disminuyó a medida que crecía la longitud de la entrada, y los modelos frecuentemente necesitaban mantener una alineación de longitud correcta en sus respuestas. La capacidad limitada de los modelos para manejar cadenas numéricas más largas afectó la precisión de los dígitos y la longitud general del resultado, lo que sugiere que la longitud de la secuencia altera la precisión tanto por dígito como de longitud total. Un análisis más detallado indicó que la comprensión de los dígitos por parte de los LLM podría haber sido más consistente, lo que llevó a errores en tareas como recuperar o comparar dígitos específicos de números grandes.
A través de esta investigación, el equipo de la Universidad de Pekín destacó las limitaciones de las capacidades numéricas fundamentales de los LLM y señaló que los métodos existentes para mejorar NUPA deben revisarse para abordar estos desafíos por completo. Sus hallazgos sugieren que, si bien los ajustes del tokenizador y la codificación posicional ofrecen mejoras menores, pueden ser necesarios cambios revolucionarios para satisfacer las demandas de tareas complejas de razonamiento numérico. El trabajo aboga por un mayor desarrollo de modelos de capacitación centrados en la comprensión numérica, sentando así las bases para la creación de capacidades NUPA sólidas y confiables adecuadas para aplicaciones del mundo real.
En conclusión, la investigación subraya una clara necesidad de metodologías mejoradas y datos de capacitación para mejorar el razonamiento y el procesamiento numérico en los LLM. El trabajo del equipo de la Universidad de Pekín aborda la brecha entre las capacidades de razonamiento de los LLM actuales y su confiabilidad numérica práctica, promoviendo avances futuros en la investigación de la IA y sus aplicaciones en el mundo real.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS‘
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.
Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️