Incitación mediante cadenas de pensamiento (CoT): un análisis exhaustivo revela una eficacia limitada más allá de las matemáticas y el razonamiento simbólico

La incitación por cadenas de pensamiento (CoT) ha surgido como una técnica popular para mejorar las capacidades de resolución de problemas de los modelos de lenguaje grandes (LLM) mediante la generación de pasos intermedios. A pesar de su mejor desempeño en el razonamiento matemático, la efectividad de CoT en otros dominios sigue siendo cuestionable. La investigación actual se centra más en los problemas matemáticos, posiblemente pasando por alto cómo CoT podría aplicarse de manera más amplia. En algunas áreas, CoT muestra una mejora limitada o incluso un desempeño disminuido. Este enfoque limitado en el razonamiento matemático plantea inquietudes sobre la generalización de CoT y resalta la necesidad de una evaluación más detallada de los métodos de razonamiento en diferentes tipos de problemas.

Las investigaciones existentes incluyen varios enfoques para mejorar las capacidades de razonamiento de los LLM más allá de CoT. Uno de los enfoques es la planificación a largo plazo, que ha surgido como un área prometedora en tareas como secuencias complejas de toma de decisiones. Sin embargo, el debate sobre la eficacia de CoT en tareas de planificación sigue dividido, con estudios que respaldan y cuestionan su utilidad. Se han desarrollado métodos alternativos como el árbol de pensamiento para abordar los desafíos de planificación, lo que da como resultado sistemas más complejos. La investigación teórica indica que CoT aumenta Transformers, abriendo la puerta a variantes de CoT más avanzadas. El trabajo reciente sobre la internalización de CoT también sugiere que aún no se ha alcanzado todo el potencial de la generación explícita de tokens intermedios.

Investigadores de la Universidad de Texas en Austin, la Universidad Johns Hopkins y la Universidad de Princeton han propuesto una evaluación integral de la estimulación CoT en diversos dominios de tareas. Incluye un metaanálisis de más de 100 artículos relacionados con CoT y evaluaciones originales que abarcan 20 conjuntos de datos y 14 modelos. Los beneficios de rendimiento de CoT se centran más en las tareas de razonamiento matemático y lógico, con mejoras mínimas en otras áreas. Muestra ventajas significativas en el punto de referencia MMLU, especialmente cuando las preguntas o respuestas implican operaciones simbólicas. Los investigadores también desglosan la eficacia de CoT analizando sus aspectos de planificación y ejecución y comparándolo con los LLM mejorados con herramientas.

Los investigadores aplicaron una metodología detallada para evaluar el CoT en varios modelos, conjuntos de datos y técnicas de estímulo. Se centra más en el inglés, modelos de lenguaje adaptados a las instrucciones que se utilizan comúnmente para tareas de razonamiento general. Los conjuntos de datos seleccionados cubren varias categorías de razonamiento, como el sentido común, el conocimiento, el razonamiento simbólico, el razonamiento matemático y el razonamiento blando. Para la implementación, los investigadores utilizaron vLLM, un paquete de inferencia de alto rendimiento, con decodificación voraz aplicada a todos los modelos. La mayoría de los estímulos se derivan de evaluaciones de Llama 3.1, con ajustes realizados para lograr coherencia, y se crean analizadores de respuestas personalizados para cada conjunto de datos y modelo para garantizar la extracción y el análisis precisos de los resultados.

Los resultados de la evaluación demuestran variaciones significativas en la efectividad de CoT en diversos modelos y conjuntos de datos. La combinación de planificación y ejecución (ya sea a través de CoT o un solucionador directo) para tareas como el razonamiento matemático, supera a la respuesta directa. Sin embargo, la planificación por sí sola no explica la mayoría de las mejoras de rendimiento. Los métodos de solución CoT y Plan + CoT muestran las mayores mejoras de precisión, especialmente en conjuntos de datos con gran carga matemática. Además, el método de solución Plan + Tool supera a otros métodos en la mayoría de los escenarios, lo que resalta las limitaciones de los LLM en la ejecución y el seguimiento de pasos complejos en comparación con los solucionadores simbólicos especializados. Estos hallazgos indican que la principal ventaja de CoT radica en su capacidad para manejar tareas que requieren un seguimiento y un cálculo detallados.

En este artículo, los investigadores han presentado una evaluación integral de CoT, incitando a los usuarios a través de diversos dominios de tareas. Esta evaluación de la incitación de CoT revela su eficacia limitada en diversas tareas lingüísticas. Los beneficios de CoT se centran más en los problemas matemáticos y de lógica formal, independientemente de las estrategias de incitación o la solidez del modelo. Un análisis posterior muestra que las mejoras en el rendimiento de CoT se deben en gran medida a su capacidad para rastrear pasos intermedios en la resolución de problemas. Sin embargo, los solucionadores simbólicos dedicados superan constantemente a CoT en estas áreas. Este estudio destacó la necesidad de una innovación continua en las capacidades de razonamiento de modelos lingüísticos para abordar la gama completa de desafíos en el procesamiento del lenguaje natural.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)