Evaluación de las capacidades de planificación de modelos de lenguajes grandes: viabilidad, optimización y generalización en el modelo o1 de OpenAI

Los nuevos desarrollos en modelos de lenguaje grandes (LLM) han demostrado qué tan bien estos modelos realizan tareas de razonamiento sofisticadas como codificación, comprensión del lenguaje y resolución de problemas matemáticos. Sin embargo, hay menos información sobre la eficacia con la que funcionan estos modelos en términos de planificación, especialmente en situaciones en las que un objetivo debe alcanzarse mediante una secuencia de acciones interconectadas. Debido a que la planificación frecuentemente requiere modelos para comprender las restricciones, gestionar decisiones secuenciales, funcionar en contextos dinámicos y retener el recuerdo de actividades anteriores, es un tema más difícil de manejar para los LLM.

En una investigación reciente, un equipo de investigadores de la Universidad de Texas en Austin evaluó las capacidades de planificación del modelo o1 de OpenAI, que es un recién llegado al campo LLM que se creó con capacidades de razonamiento mejoradas. El estudio probó el desempeño del modelo en términos de tres dimensiones principales: generalizabilidad, optimización y viabilidad, utilizando una variedad de tareas de referencia.

La capacidad del modelo para proporcionar un plan que pueda llevarse a cabo y cumpla con los requisitos y limitaciones de la tarea se denomina viabilidad. Por ejemplo, los trabajos en entornos como Barman y Tyreworld están muy restringidos, requieren la utilización de recursos o acciones en un orden específico y no se siguen estas instrucciones. En este sentido, el modelo o1-preview demostró algunas fortalezas sorprendentes, especialmente en su capacidad para autoevaluar sus planes y cumplir con las limitaciones específicas de las tareas. La capacidad del modelo para evaluarse a sí mismo aumenta su probabilidad de éxito al permitirle determinar con mayor precisión si los pasos que genera cumplen con los requisitos de la tarea.

Si bien crear diseños viables es un primer paso vital, la optimización o qué tan bien el modelo completa la tarea también es esencial. Encontrar una solución por sí solo suele ser insuficiente en muchos escenarios del mundo real, ya que la solución también debe ser eficiente en términos de la cantidad de tiempo, recursos utilizados y procedimientos requeridos. El estudio encontró que, aunque el modelo de vista previa o1 superó al GPT-4 en las siguientes limitaciones, con frecuencia produjo diseños menos que ideales. Esto indica que el modelo incluía frecuentemente acciones inútiles o redundantes, que resultaban en soluciones ineficaces.

Por ejemplo, las respuestas del modelo eran viables pero incluían repeticiones innecesarias que podrían haberse evitado con un enfoque más optimizado en entornos como Floortile y Grippers, que exigen un excelente razonamiento espacial y secuenciación de tareas.

La capacidad de un modelo para aplicar técnicas de planificación recién aprendidas a problemas únicos o desconocidos para los cuales no ha recibido capacitación explícita se conoce como generalización. Este es un componente crucial en las aplicaciones del mundo real, ya que las actividades suelen ser dinámicas y necesitan técnicas de planificación flexibles y adaptables. El modelo o1-preview tuvo problemas para generalizarse en entornos espacialmente complicados como Termes, donde los trabajos incluyen la gestión de espacios 3D o muchos objetos que interactúan. Su rendimiento disminuyó drásticamente en tareas nuevas y espacialmente dinámicas, incluso cuando podía mantener la estructura en actividades más familiares.

Los hallazgos del estudio han demostrado las ventajas y desventajas del modelo o1-preview en relación con la planificación. Por un lado, las capacidades del modelo por encima del GPT-4 son evidentes en su capacidad para respetar límites, controlar las transiciones de estado y evaluar la viabilidad de sus propios planes. Debido a esto, es más confiable en entornos estructurados donde el cumplimiento de las reglas es esencial. Sin embargo, todavía existen muchas limitaciones importantes en la toma de decisiones y la gestión de la memoria en el modelo. Para tareas que requieren un fuerte razonamiento espacial, en particular, el modelo de vista previa o1 a menudo produce diseños no ideales y tiene dificultades para generalizar a entornos desconocidos.

Este estudio piloto sienta el marco para futuras investigaciones dirigidas a superar las limitaciones declaradas de los LLM en las tareas de planificación. Las áreas cruciales que necesitan desarrollo son las siguientes.

  1. Gestión de la memoria: se podría reducir la cantidad de pasos innecesarios y aumentar la eficiencia del trabajo mejorando la capacidad del modelo para recordar y hacer un uso efectivo de las actividades anteriores.
  1. Toma de decisiones: se requiere más trabajo para mejorar las decisiones secuenciales tomadas por los LLM, asegurándose de que cada acción avance el modelo hacia el objetivo de la mejor manera posible.
  1. Generalización: mejorar el pensamiento abstracto y los métodos de generalización podría mejorar el desempeño del LLM en situaciones únicas, especialmente aquellas que involucran razonamiento simbólico o complejidad espacial.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos GenAI (promovida)


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos de GenAI: únase a más de 300 ejecutivos de GenAI de Bayer, Microsoft, Flagship Pioneering, para aprender cómo crear una búsqueda de IA rápida y precisa en el almacenamiento de objetos. (Promovido)

Leer más
Back to top button