La industria de la IA está obsesionada con Chatbot Arena, pero puede que no sea el mejor punto de referencia

The AI industry is obsessed with Chatbot Arena, but it might not be the best benchmark

En los últimos meses, ejecutivos tecnológicos como Elon Musk han promocionado el rendimiento de los modelos de inteligencia artificial de su empresa en un punto de referencia particular: Chatbot Arena.

Mantenido por una organización sin fines de lucro conocida como LMSYS, Chatbot Arena se ha convertido en una especie de obsesión de la industria. Las publicaciones sobre actualizaciones de sus tablas de clasificación de modelos obtienen cientos de vistas y se comparten en Reddit y X, y la cuenta oficial de LMSYS X tiene más de 54.000 seguidores. Millones de personas han visitado el sitio web de la organización solo en el último año.

Aun así, quedan algunas preguntas persistentes sobre la capacidad de Chatbot Arena para decirnos qué tan “buenos” son realmente estos modelos.

En busca de un nuevo punto de referencia

Antes de profundizar en el tema, tomémonos un momento para comprender qué es exactamente LMSYS y cómo se volvió tan popular.

La organización sin fines de lucro se lanzó en abril pasado como un proyecto encabezado por estudiantes y profesores de Carnegie Mellon, SkyLab de UC Berkeley y UC San Diego. Algunos de los miembros fundadores ahora trabajan en Google DeepMind, xAI de Musk y Nvidia; hoy, LMSYS está dirigido principalmente por investigadores afiliados a SkyLab.

LMSYS no se propuso crear una clasificación de modelos viral. La misión fundadora del grupo era hacer que los modelos (en concreto, los modelos generativos como ChatGPT de OpenAI) fueran más accesibles mediante el desarrollo conjunto y la publicación de código abierto. Pero poco después de la fundación de LMSYS, sus investigadores, insatisfechos con el estado de la evaluación comparativa de la IA, vieron el valor de crear una herramienta de prueba propia.

“Los parámetros de referencia actuales no logran abordar adecuadamente las necesidades de los modelos de última generación, en particular en lo que respecta a la evaluación de las preferencias de los usuarios”, escribieron los investigadores en un artículo técnico publicado en marzo. “Por lo tanto, existe una necesidad urgente de una plataforma de evaluación abierta y en vivo basada en las preferencias humanas que pueda reflejar con mayor precisión el uso en el mundo real”.

De hecho, como hemos escrito antes, los parámetros de referencia que se utilizan con más frecuencia en la actualidad no reflejan adecuadamente la forma en que la persona promedio interactúa con los modelos. Muchas de las habilidades que los parámetros de referencia evalúan (por ejemplo, la resolución de problemas matemáticos de nivel de doctorado) rara vez serán relevantes para la mayoría de las personas que utilizan, por ejemplo, Claude.

Los creadores de LMSYS sintieron algo similar y idearon una alternativa: Chatbot Arena, un punto de referencia colaborativo diseñado para capturar los aspectos “matizados” de los modelos y su desempeño en tareas abiertas del mundo real.

Clasificación de Chatbot Arena a principios de septiembre de 2024.

Créditos de la imagen: Sistema de gestión de licencias y servicios de lectura (LMSYS)

Chatbot Arena permite que cualquier persona en la web haga una pregunta (o preguntas) a dos modelos anónimos seleccionados al azar. Una vez que una persona acepta los Términos de servicio que permiten que sus datos se utilicen para futuras investigaciones, modelos y proyectos relacionados de LMSYS, puede votar por sus respuestas preferidas de los dos modelos en duelo (también puede declarar un empate o decir “ambos son malos”), momento en el que se revelan las identidades de los modelos.

Este flujo produce una “variedad de preguntas” que un usuario típico podría plantear a cualquier modelo generativo, escribieron los investigadores en el artículo de marzo. “Armados con estos datos, empleamos un conjunto de potentes técnicas estadísticas (…) para estimar la clasificación de los modelos de la forma más fiable y eficiente posible”, explicaron.

Desde el lanzamiento de Chatbot Arena, LMSYS ha añadido docenas de modelos abiertos a su herramienta de pruebas y se ha asociado con universidades como la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI), así como con empresas como OpenAI, Google, Anthropic, Microsoft, Meta, Mistral y Hugging Face para que sus modelos estén disponibles para pruebas. Chatbot Arena ahora cuenta con más de 100 modelos, incluidos modelos multimodales (modelos que pueden comprender datos más allá del texto) como GPT-4o de OpenAI y Claude 3.5 Sonnet de Anthropic.

De esta manera se han enviado y evaluado más de un millón de indicaciones y pares de respuestas, lo que ha generado una enorme cantidad de datos de clasificación.

Sesgo y falta de transparencia

En el artículo de marzo, los fundadores de LMSYS afirman que las preguntas formuladas por los usuarios de Chatbot Arena son “suficientemente diversas” como para servir de referencia para una variedad de casos de uso de IA. “Debido a su valor único y su apertura, Chatbot Arena ha surgido como uno de los marcadores de modelos más referenciados”, escriben.

Pero, ¿hasta qué punto son informativos los resultados? Eso es tema de debate.

Yuchen Lin, investigadora científica del Instituto Allen de IA, una organización sin fines de lucro, afirma que LMSYS no ha sido completamente transparente en cuanto a las capacidades, conocimientos y habilidades de los modelos que está evaluando en Chatbot Arena. En marzo, LMSYS publicó un conjunto de datos, LMSYS-Chat-1M, que contiene un millón de conversaciones entre usuarios y 25 modelos en Chatbot Arena. Pero no ha actualizado el conjunto de datos desde entonces.

“La evaluación no es reproducible y los datos limitados publicados por LMSYS hacen que sea difícil estudiar las limitaciones de los modelos en profundidad”, afirmó Lin.

En la medida en que LMSYS tiene En un artículo de marzo, los investigadores de LMSYS explicaron en detalle su método de prueba y afirmaron que utilizan “algoritmos de muestreo eficientes” para enfrentar a los modelos entre sí “de una manera que acelera la convergencia de las clasificaciones y al mismo tiempo conserva la validez estadística”. Escribieron que LMSYS recopila aproximadamente 8000 votos por modelo antes de actualizar las clasificaciones de Chatbot Arena, y que ese umbral generalmente se alcanza después de varios días.

Pero Lin cree que la votación no tiene en cuenta la capacidad (o incapacidad) de las personas para detectar alucinaciones en los modelos, ni las diferencias en sus preferencias, lo que hace que sus votos no sean confiables. Por ejemplo, a algunos usuarios les pueden gustar respuestas más largas y con formato Markdown, mientras que otros pueden preferir respuestas más concisas.

El resultado es que dos usuarios pueden dar respuestas opuestas al mismo par de respuestas, y ambas serían igualmente válidas, pero eso pone en tela de juicio el valor del enfoque. Hace poco, LMSYS experimentó con el control del “estilo” y la “sustancia” de las respuestas de los modelos en Chatbot Arena.

“Los datos de preferencias humanas recopilados no tienen en cuenta estos sesgos sutiles, y la plataforma no diferencia entre ‘A es significativamente mejor que B’ y ‘A es solo ligeramente mejor que B’”, dijo Lin. “Si bien el posprocesamiento puede mitigar algunos de estos sesgos, los datos de preferencias humanas sin procesar siguen siendo ruidosos”.

Mike Cook, investigador de la Queen Mary University de Londres especializado en IA y diseño de juegos, estuvo de acuerdo con la evaluación de Lin. “Podrías haber dirigido Chatbot Arena en 1998 y seguir hablando de cambios dramáticos en la clasificación o chatbots poderosos y de gran potencia, pero serían terribles”, agregó, señalando que si bien Chatbot Arena es enmarcado Como prueba empírica, equivale a una relativo Calificación de modelos.

El sesgo más problemático que se cierne sobre Chatbot Arena es la composición actual de su base de usuarios.

Lin afirma que, como el índice de referencia se hizo popular casi exclusivamente por el boca a boca en los círculos de la industria de la IA y la tecnología, es poco probable que haya atraído a un público muy representativo. Para dar credibilidad a su teoría, las preguntas principales en el conjunto de datos LMSYS-Chat-1M se refieren a programación, herramientas de IA, errores y correcciones de software y diseño de aplicaciones, no el tipo de cosas que uno esperaría que preguntaran personas sin conocimientos técnicos.

“La distribución de los datos de prueba puede no reflejar con precisión los usuarios humanos reales del mercado objetivo”, dijo Lin. “Además, el proceso de evaluación de la plataforma es en gran medida incontrolable, y se basa principalmente en el posprocesamiento para etiquetar cada consulta con varias etiquetas, que luego se utilizan para desarrollar calificaciones específicas de la tarea. Este enfoque carece de rigor sistemático, lo que dificulta la evaluación de preguntas de razonamiento complejas basándose únicamente en las preferencias humanas”.

Cook señaló que debido a que los usuarios de Chatbot Arena se autoseleccionan (es decir, están interesados en probar modelos en primer lugar), es posible que estén menos dispuestos a realizar pruebas de estrés o llevar los modelos hasta sus límites.

“No es una buena manera de realizar un estudio en general”, dijo Cook. “Los evaluadores hacen una pregunta y votan qué modelo es ‘mejor’, pero ‘mejor’ no está realmente definido por LMSYS en ninguna parte. Ser realmente bueno en este parámetro de referencia puede hacer que la gente piense que un chatbot de IA ganador es más humano, más preciso, más seguro, más confiable, etc., pero en realidad no significa ninguna de esas cosas”.

LMSYS está intentando equilibrar estos sesgos mediante el uso de sistemas automatizados (MT-Bench y Arena-Hard-Auto) que utilizan los propios modelos (GPT-4 y GPT-4 Turbo de OpenAI) para clasificar la calidad de las respuestas de otros modelos (LMSYS publica estas clasificaciones junto con las votaciones). Pero, aunque LMSYS afirma que los modelos “coinciden bien con las preferencias humanas controladas y colaborativas”, el asunto está lejos de estar resuelto.

Los crecientes vínculos comerciales de LMSYS son otra razón para tomar las clasificaciones con cautela, dice Lin.

Algunos proveedores como OpenAI, que ofrecen sus modelos a través de API, tienen acceso a datos de uso de modelos, que… podría Los usuarios pueden utilizar el sistema para “enseñar para el examen” si así lo desean. Esto hace que el proceso de prueba sea potencialmente injusto para los modelos abiertos y estáticos que se ejecutan en la propia nube de LMSYS, dijo Lin.

“Las empresas pueden optimizar continuamente sus modelos para que se adapten mejor a la distribución de usuarios de LMSYS, lo que puede dar lugar a una competencia desleal y a una evaluación menos significativa”, añadió. “Los modelos comerciales conectados a través de API pueden acceder a todos los datos introducidos por los usuarios, lo que da ventaja a las empresas con más tráfico”.

Cook agregó: “En lugar de fomentar nuevas investigaciones sobre IA o algo por el estilo, lo que hace LMSYS es alentar a los desarrolladores a modificar pequeños detalles para obtener una ventaja en la redacción sobre su competencia”.

LMSYS también está patrocinado en parte por organizaciones, una de las cuales es una empresa de capital de riesgo, que apuesta por la IA.

La plataforma de ciencia de datos Kaggle de Google ha donado dinero a LMSYS, al igual que Andreessen Horowitz (cuyas inversiones incluyen Mistral) y Together AI. Los modelos Gemini de Google están en Chatbot Arena, al igual que los de Mistral y Together.

LMSYS afirma en su sitio web que también depende de subvenciones y donaciones universitarias para respaldar su infraestructura, y que ninguno de sus patrocinios (que vienen en forma de créditos de computación en la nube y hardware, además de efectivo) tiene “condiciones”. Pero las relaciones dan la impresión de que LMSYS no es completamente imparcial, en particular porque los proveedores usan cada vez más Chatbot Arena para generar expectativa por sus modelos.

LMSYS no respondió a la solicitud de entrevista de TechCrunch.

¿Un mejor punto de referencia?

Lin cree que, a pesar de sus defectos, LMSYS y Chatbot Arena brindan un servicio valioso: brindar información en tiempo real sobre el rendimiento de diferentes modelos fuera del laboratorio.

“Chatbot Arena supera el enfoque tradicional de optimización para pruebas comparativas de opción múltiple, que suelen estar saturadas y no son directamente aplicables a situaciones del mundo real”, afirmó Lin. “La prueba comparativa proporciona una plataforma unificada donde los usuarios reales pueden interactuar con múltiples modelos, lo que ofrece una evaluación más dinámica y realista”.

Pero, a medida que LMSYS continúa agregando funciones a Chatbot Arena, como evaluaciones más automatizadas, Lin siente que hay oportunidades fáciles que la organización podría abordar para mejorar las pruebas.

Para permitir una comprensión más “sistemática” de las fortalezas y debilidades de los modelos, plantea, LMSYS podría diseñar puntos de referencia en torno a diferentes subtemas, como el álgebra lineal, cada uno con un conjunto de tareas específicas del dominio. Eso daría a los resultados de Chatbot Arena mucho más peso científico, dice.

“Si bien Chatbot Arena puede ofrecer una instantánea de la experiencia del usuario (aunque sea de una base de usuarios pequeña y potencialmente no representativa), no debería considerarse el estándar definitivo para medir la inteligencia de un modelo”, dijo Lin. “En cambio, es más apropiado verlo como una herramienta para medir la satisfacción del usuario en lugar de una medida científica y objetiva del progreso de la IA”.

En busca de un nuevo punto de referencia

Sesgo y falta de transparencia

Vínculos comerciales y compartición de datos

¿Un mejor punto de referencia?