ReliabilityBench: medición del rendimiento impredecible de modelos de lenguaje grandes configurados en cinco dominios clave de la cognición humana

La investigación evalúa la confiabilidad de grandes modelos de lenguaje (LLM) como GPT, LLaMA y BLOOM, ampliamente utilizados en diversos dominios, incluidos la educación, la medicina, la ciencia y la administración. A medida que el uso de estos modelos se vuelve más frecuente, es fundamental comprender sus limitaciones y peligros potenciales. La investigación destaca que a medida que estos modelos aumentan en tamaño y complejidad, su confiabilidad no necesariamente mejora. En cambio, el rendimiento puede disminuir en tareas aparentemente simples, lo que genera resultados engañosos que pueden pasar desapercibidos para los supervisores humanos. Esta tendencia indica la necesidad de un examen más exhaustivo de la confiabilidad del LLM más allá de las métricas de desempeño convencionales.

La cuestión central explorada en la investigación es que, si bien la ampliación de los LLM los hace más poderosos, también introduce patrones de comportamiento inesperados. Específicamente, estos modelos pueden volverse menos estables y producir resultados erróneos que parecen plausibles a primera vista. Este problema surge debido a la dependencia del ajuste de la instrucción, la retroalimentación humana y el aprendizaje por refuerzo para mejorar su desempeño. A pesar de estos avances, los LLM luchan por mantener una confiabilidad constante en tareas de diversa dificultad, lo que genera preocupaciones sobre su solidez e idoneidad para aplicaciones donde la precisión y la previsibilidad son críticas.

Las metodologías existentes para abordar estos problemas de confiabilidad incluyen la ampliación de los modelos, lo que implica aumentar los parámetros, los datos de entrenamiento y los recursos computacionales. Por ejemplo, el tamaño de los modelos GPT-3 oscila entre 350 millones y 175 mil millones de parámetros, mientras que los modelos LLaMA varían entre 6,7 mil millones y 70 mil millones. Aunque el escalamiento ha llevado a mejoras en el manejo de consultas complejas, también ha causado fallas en instancias más simples que los usuarios esperarían que se administraran fácilmente. De manera similar, la configuración de los modelos utilizando técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) ha mostrado resultados mixtos, lo que a menudo conduce a modelos que generan respuestas plausibles pero incorrectas en lugar de simplemente evitar la pregunta.

Investigadores de la Universitat Politècnica de València y de la Universidad de Cambridge presentaron el ConfiabilidadBanco marco para evaluar sistemáticamente la confiabilidad de los LLM en cinco dominios: aritmética (‘suma’), reorganización de vocabulario (‘anagrama’), conocimiento geográfico (‘localidad’), preguntas científicas básicas y avanzadas (‘ciencia’) y centrado en la información. transformaciones (‘transformaciones’). Por ejemplo, se probaron modelos con operaciones aritméticas que iban desde sumas simples de un dígito hasta sumas complejas de 100 dígitos en el dominio de la “suma”. Los LLM a menudo obtuvieron malos resultados en tareas que involucraban operaciones de acarreo, con una tasa de éxito general que caía drásticamente para adiciones más largas. De manera similar, en la tarea de ‘anagrama’, que consiste en reorganizar letras para formar palabras, el rendimiento varió significativamente según la longitud de la palabra, con una tasa de fracaso del 96,78% para el anagrama más largo evaluado. Esta evaluación comparativa de dominio específico revela las fortalezas y debilidades matizadas de los LLM, ofreciendo una comprensión más profunda de sus capacidades.

Los resultados de la investigación muestran que, si bien las estrategias de escalado y configuración mejoran el desempeño del LLM en preguntas complejas, a menudo degradan la confiabilidad en las más simples. Por ejemplo, modelos como GPT-4 y LLaMA-2, que destacan por responder consultas científicas complejas, aún cometen errores básicos en tareas aritméticas simples o de reorganización de palabras. Además, el desempeño de LLaMA-2 en preguntas de conocimiento geográfico, medido utilizando un punto de referencia de localidad, indicó una alta sensibilidad a pequeñas variaciones en la redacción de mensajes. Si bien los modelos mostraron una precisión notable para ciudades conocidas, tuvieron dificultades significativas cuando se trataron de ubicaciones menos populares, lo que resultó en una tasa de error del 91,7% para ciudades que no se encuentran en el 10% superior por población.

Los resultados indican que los modelos moldeados son más propensos a producir respuestas incorrectas pero aparentemente sensatas que sus homólogos anteriores, que a menudo evitan responder cuando no están seguros. Los investigadores observaron que el comportamiento de evitación, medido como proporción de preguntas sin respuesta, era un 15% mayor en modelos más antiguos como el GPT-3 en comparación con el GPT-4 más nuevo, donde este comportamiento se redujo a casi cero. Esta reducción en la evitación, si bien es potencialmente beneficiosa para la experiencia del usuario, llevó a un aumento en la frecuencia de respuestas incorrectas, particularmente en tareas fáciles. En consecuencia, la aparente confiabilidad de estos modelos disminuyó, lo que socavó la confianza de los usuarios en sus resultados.

En conclusión, la investigación subraya la necesidad de un cambio de paradigma en el diseño y desarrollo de LLM. El marco ReliabilityBench propuesto proporciona una metodología de evaluación sólida que pasa de puntuaciones de desempeño agregadas a una evaluación más matizada del comportamiento del modelo basada en los niveles de dificultad humana. Este enfoque permite caracterizar la confiabilidad del modelo, allanando el camino para que futuras investigaciones se centren en garantizar un rendimiento consistente en todos los niveles de dificultad. Los hallazgos resaltan que, a pesar de los avances, los LLM aún no han alcanzado un nivel de confiabilidad que se alinee con las expectativas humanas, lo que los hace propensos a fallas inesperadas que deben abordarse mediante estrategias refinadas de capacitación y evaluación.

Mira el Papel y Página HF. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.