SpecEval: un nuevo marco de evaluación de caja negra para evaluar la comprensión del código en LLM a través de las especificaciones del programa

A medida que los LLM se vuelven más frecuentes en el desarrollo de software, es crucial asegurarse de que puedan comprender, generar y manipular código con precisión. También puede ayudar a determinar la idoneidad de los LLM para aplicaciones del mundo real, como la generación automatizada de código, pruebas de software y optimización de código. Los marcos de evaluación actuales, como CRUXEval y REval, se centran principalmente en tareas de razonamiento de código. Aún así, necesitan capturar toda la gama de seguimientos de ejecución necesarios para evaluar completamente la comprensión del código. Esto conduce a una evaluación incompleta o sesgada de los LLM, ya que estos métodos no consideran todas las posibles variaciones semánticas en el código.

Investigadores de la Universidad Tecnológica de Nanyang (Singapur) y la Universidad de Nanjing (China) abordaron el desafío de evaluar con precisión las capacidades de comprensión de código de los modelos de lenguajes grandes (LLM). Los investigadores propusieron SpecEval, un marco de evaluación de caja negra diseñado para evaluar la comprensión de la semántica del programa por parte de los LLM a través de especificaciones formales. Estas especificaciones formales proporcionan una representación integral del comportamiento del programa en todas las rutas de ejecución posibles, ofreciendo un enfoque más holístico de la evaluación.

La metodología de SpecEval gira en torno a cuatro tareas clave: juicio sobre la exactitud de las especificaciones, selección de candidatos para las especificaciones, cumplimiento de las especificaciones y generación de especificaciones. Al centrarse en estas tareas, el marco tiene como objetivo evaluar la capacidad de los LLM para comprender y generar código que se adhiera a especificaciones formales, asegurando que los LLM sean evaluados no solo por sus capacidades de generación de código sino también por su comprensión más profunda de la semántica del código.

El núcleo del marco de evaluación de SpecEval es el uso de especificaciones formalizadas del programa, que articulan con precisión el comportamiento de un programa. Este enfoque formal garantiza que se consideren todos los posibles rastros de ejecución de un programa, lo que permite una evaluación más completa. Para probar la solidez de los LLM, el marco introduce perturbaciones de preservación semántica, que modifican el código o las especificaciones de manera que mantengan su significado original. Este análisis contrafactual ayuda a examinar cómo los LLM responden a cambios que no deberían afectar la lógica subyacente del código, revelando cualquier debilidad en su comprensión.

SpecEval también incorpora un análisis de coherencia progresivo para evaluar la coherencia del desempeño del LLM en tareas que tienen dependencias secuenciales. Este método evalúa si los LLM pueden mantener un alto rendimiento en una serie de tareas relacionadas que se complementan entre sí. Se llevaron a cabo extensos experimentos en seis LLM de última generación y los resultados mostraron que, si bien los modelos podían realizar algunas tareas, su desempeño general en tareas relacionadas con las especificaciones estaba por debajo de las expectativas. El análisis también reveló que los LLM tuvieron dificultades para mantener la coherencia cuando se enfrentaron a perturbaciones de preservación semántica, lo que indica limitaciones en sus capacidades de comprensión de código.

En conclusión, SpecEval proporciona un enfoque novedoso y riguroso para evaluar las capacidades de comprensión de código de los LLM, yendo más allá de los métodos existentes y centrándose únicamente en casos de entrada específicos o tareas de razonamiento de código. Al emplear especificaciones formales del programa y tareas que evalúan los niveles de comprensión tanto básicos como avanzados, SpecEval ofrece una evaluación más completa de los LLM. Los resultados experimentales revelan lagunas significativas en el estado actual de los LLM, principalmente cuando se trata de variaciones semánticas, lo que destaca la necesidad de mayores avances en el desarrollo de los LLM.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

⏩ ⏩ SEMINARIO WEB GRATUITO sobre IA: ‘SAM 2 para vídeo: cómo ajustar sus datos’ (miércoles, 25 de septiembre, de 4:00 a. m. a 4:45 a. m. EST)

Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.