FineTuneBench: evaluación de la capacidad de los LLM para incorporar y actualizar conocimientos mediante ajustes

La demanda de perfeccionar los LLM para incorporar nueva información y actualizar los conocimientos existentes está creciendo. Si bien empresas como OpenAI y Google ofrecen API de ajuste que permiten la personalización de LLM, su eficacia para la actualización de conocimientos aún está por determinar. Los LLM utilizados en campos como el software y la medicina necesitan información actualizada y específica del dominio: los desarrolladores de software necesitan modelos actualizados con el código más reciente, mientras que la atención médica requiere el cumplimiento de pautas recientes. Aunque los servicios de ajuste ofrecen una forma de adaptar modelos patentados de código cerrado, carecen de transparencia en cuanto a los métodos y las opciones limitadas de hiperparámetros pueden restringir la infusión de conocimiento. No existen puntos de referencia estandarizados para evaluar estas capacidades de ajuste.

Los métodos actuales para alterar el comportamiento LLM incluyen SFT, RLHF y entrenamiento previo continuo. Sin embargo, aún se está determinando la eficacia de estos enfoques para la infusión de conocimientos. La generación de recuperación aumentada (RAG) introduce conocimiento en indicaciones, aunque los modelos a menudo ignoran información contradictoria, lo que provoca imprecisiones. Investigaciones anteriores han explorado la inyección de conocimiento en LLM de código abierto mediante adaptadores o ajuste de capa superficial, pero se necesita más comprensión sobre el ajuste de modelos comerciales más grandes. Estudios anteriores han perfeccionado modelos para clasificación y resumen, sin embargo, este trabajo se centra exclusivamente en la infusión de conocimiento y compara múltiples API de ajuste fino en un conjunto de datos compartido.

Los investigadores de la Universidad de Stanford han desarrollado FineTuneBench, un marco integral y un conjunto de datos para evaluar con qué eficacia las API de ajuste comercial permiten a los LLM incorporar conocimientos nuevos y actualizados. Al probar cinco LLM avanzados, incluidos GPT-4o y Gemini 1.5 Pro, en dos escenarios: introducir nueva información (por ejemplo, noticias recientes) y actualizar el conocimiento existente (por ejemplo, pautas médicas), el estudio encontró un éxito limitado en todos los modelos. Los modelos promediaron sólo un 37% de precisión para aprender nueva información y un 19% para actualizar conocimientos. Entre ellos, GPT-4o mini tuvo el mejor desempeño, mientras que los modelos Gemini mostraron una capacidad mínima para actualizaciones de conocimientos, lo que subraya las limitaciones en los servicios de ajuste actuales para una adaptación confiable del conocimiento.

Para evaluar qué tan bien el ajuste puede permitir que los modelos aprendan nueva información, los investigadores crearon dos conjuntos de datos únicos: un conjunto de datos de últimas noticias y un conjunto de datos de personas ficticias, asegurándose de que ninguno de los datos existiera en los conjuntos de entrenamiento de los modelos. El conjunto de datos de últimas noticias, generado a partir de artículos de Associated Press de septiembre de 2024, se elaboró en 277 pares de preguntas y respuestas, que se reformularon para probar la solidez del modelo. El conjunto de datos de personas ficticias incluyó datos de perfil sobre personajes de ficción, generando preguntas directas y derivadas para pruebas de conocimientos. Los modelos se entrenaron en ambos conjuntos de datos utilizando varios métodos, como enmascarar las respuestas en el mensaje. Se exploraron diferentes configuraciones y épocas para optimizar el rendimiento.

El ajuste de los modelos OpenAI muestra una alta memorización pero una generalización limitada para nuevas tareas de conocimiento. Si bien los modelos como GPT-4o-mini destacan por recordar pares de control de calidad entrenados, tienen dificultades con preguntas reformuladas, especialmente en el conjunto de datos de Fictional People, donde las respuestas a preguntas secundarias o comparativas siguen siendo débiles. Actualizar conocimientos es más difícil, especialmente en tareas de codificación, debido a los desafíos que supone alterar la información preexistente. Los modelos Géminis tienen un rendimiento inferior en todas las tareas y necesitan ayuda para memorizar o generalizar de forma eficaz. Los métodos de capacitación como el enmascaramiento de palabras y la finalización rápida tampoco logran mejorar la generalización, lo que sugiere que los paradigmas de capacitación estándar pueden no mejorar adecuadamente la adaptabilidad.

El estudio presenta FineTuneBench, una colección de conjuntos de datos que prueba la capacidad de los LLM perfeccionados para adquirir conocimientos sobre noticias, personas ficticias, directrices médicas y bibliotecas de códigos. A pesar del ajuste, los modelos mostraron una adaptación limitada al conocimiento: GPT-4o-mini superó a otros y Gemini tuvo un rendimiento inferior. Depender del ajuste fino de LLM sigue siendo un desafío, ya que los métodos y parámetros actuales de OpenAI y Google son limitados. Los enfoques RAG también son subóptimos debido a problemas de costo y escala. Las limitaciones incluyen probar solo dos proveedores de LLM y utilizar en su mayoría parámetros de ajuste predeterminados. El trabajo futuro explorará cómo la complejidad de las preguntas afecta la generalización del modelo.

Mira el Página de papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🐝🐝 Próximo evento en vivo de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.