JailbreakBench: un punto de referencia de código abierto para hacer jailbreak a modelos de lenguajes grandes (LLM)

Los modelos de lenguaje grande (LLM) son vulnerables a ataques de jailbreak, que pueden generar información ofensiva, inmoral o inadecuada. Al aprovechar las fallas de LLM, estos ataques van más allá de las precauciones de seguridad destinadas a evitar que se generen resultados ofensivos o peligrosos. La evaluación de un ataque de jailbreak es un procedimiento muy difícil y los puntos de referencia y los métodos de evaluación existentes no pueden abordar por completo estas dificultades.

La ausencia de un método estandarizado para evaluar los ataques de jailbreak es uno de los principales problemas. Medir el impacto de estos ataques o determinar su nivel de éxito carece de una metodología ampliamente reconocida. Debido a esto, los investigadores utilizan diferentes enfoques, lo que resulta en discrepancias en el cálculo de las tasas de éxito, los costos de los ataques y la efectividad general. Esta variabilidad dificulta comparar varios estudios o determinar el alcance real de las vulnerabilidades dentro de los LLM.

En una investigación reciente, un equipo de investigadores de la Universidad de Pensilvania, ETH Zurich, EPFL y Sony AI ha desarrollado un punto de referencia de código abierto llamado JailbreakBench para estandarizar la evaluación de los intentos y las defensas de jailbreak. El objetivo de JailbreakBench es ofrecer un paradigma completo, accesible y repetible para evaluar la seguridad de los LLM. Tiene cuatro partes principales, que son las siguientes.

Colección de mensajes de confrontación: JailbreakBench tiene una colección en constante actualización de los mensajes de confrontación más innovadores, a veces conocidos como artefactos de jailbreak. Los principales instrumentos empleados en los ataques de jailbreak son estas indicaciones.

Conjunto de datos para jailbreak: el punto de referencia utiliza una colección de 100 comportamientos distintos que son nuevos o tomados de investigaciones anteriores. Estas acciones están en línea con las normas de uso de OpenAI para garantizar que la evaluación sea moralmente sólida y no fomente la creación de contenidos dañinos fuera del marco de la investigación.

Marco de evaluación estandarizado: JailbreakBench proporciona un repositorio de GitHub con un marco de evaluación bien definido. Este marco consta de funciones de puntuación, avisos del sistema, plantillas de chat y un modelo de amenaza descrito detalladamente. Al estandarizar estos componentes, JailbreakBench facilita una evaluación consistente y comparable entre muchos modelos, ataques y defensas.

Tabla de clasificación: JailbreakBench tiene una tabla de clasificación a la que se puede acceder a través de su sitio web oficial en un esfuerzo por promover la competitividad y aumentar la transparencia dentro de la comunidad de investigación. Los investigadores pueden determinar qué modelos son más vulnerables a los ataques y qué defensas funcionan mejor utilizando este marcador, que mide la efectividad de varios intentos de jailbreak y defensas en distintos LLM.

Los desarrolladores de JailbreakBench han pensado minuciosamente las ramificaciones éticas de hacer público un punto de referencia de este tipo. Aunque siempre existe la posibilidad de que se pueda abusar de revelar señales antagónicas y técnicas de evaluación, los investigadores han compartido que las ventajas generales superan estos peligros.

JailbreakBench es una metodología de código abierto, transparente y repetible que ayudará a la comunidad de investigación a crear defensas más sólidas y obtener una comprensión más profunda de las vulnerabilidades de LLM. El objetivo final es desarrollar modelos de lenguaje que sean más confiables y seguros, particularmente porque se emplean en campos más delicados o de alto riesgo.

En conclusión, JailbreakBench es una herramienta útil para resolver los problemas involucrados en la evaluación de ataques de jailbreak en LLM. Intenta promover avances en la protección de los LLM contra la manipulación adversarial estandarizando los procedimientos de evaluación, otorgando acceso irrestricto a indicaciones contradictorias y promoviendo la reproducibilidad. Este punto de referencia representa un avance significativo en la confiabilidad y seguridad de los modelos de lenguaje frente a los riesgos de seguridad cambiantes.

Mira el Papel y Punto de referencia. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml.

Estamos invitando a startups, empresas e instituciones de investigación que estén trabajando en modelos de lenguajes pequeños a participar en este próximo Revista/Informe ‘Small Language Models’ de Marketchpost.com. Esta revista/informe se publicará a finales de octubre o principios de noviembre de 2024. ¡Haga clic aquí para programar una llamada!

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.