Evaluación de las vulnerabilidades de las técnicas de desaprendizaje en modelos de lenguaje grandes: un análisis completo de caja blanca

Los modelos de lenguajes grandes (LLM) han adquirido inmensas capacidades debido a su entrenamiento en vastos conjuntos de datos basados en Internet. Sin embargo, esta amplia exposición ha incorporado inadvertidamente contenido dañino, lo que ha permitido a los LLM generar material tóxico, ilícito, sesgado y que infringe la privacidad. A medida que estos modelos se vuelven más avanzados, la información peligrosa incorporada plantea riesgos cada vez mayores, lo que potencialmente hace que el conocimiento peligroso sea más accesible para los actores malintencionados. Si bien se han implementado técnicas de ajuste de seguridad para mitigar estos problemas, los investigadores continúan descubriendo fugas que eluden estas salvaguardas. La solidez de estas medidas de protección sigue siendo una cuestión de investigación abierta, lo que destaca la necesidad crítica de soluciones más efectivas para garantizar el desarrollo y la implementación responsable de los LLM en diversas aplicaciones.

Los investigadores han intentado varios enfoques para abordar los desafíos que plantean los conocimientos peligrosos en los LLM. Se han implementado métodos de capacitación en seguridad como DPO y PPO para ajustar los modelos y rechazar preguntas sobre información peligrosa. Se han introducido disyuntores, que utilizan ingeniería de representación, para ortogonalizar direcciones correspondientes a conceptos no deseados. Sin embargo, estas salvaguardas han mostrado una solidez limitada a medida que los jailbreak continúan eludiendo las protecciones y extrayendo conocimiento peligroso a través de estrategias de activación, optimización del acceso a la caja blanca o ablación de activación.

Desaprender ha surgido como una solución prometedora, cuyo objetivo es actualizar los pesos del modelo para eliminar por completo conocimientos específicos. Este enfoque se ha aplicado a varios temas, incluida la equidad, la privacidad, la seguridad y las alucinaciones. Se han desarrollado métodos notables como RMU y NPO para el desaprendizaje centrado en la seguridad. Sin embargo, evaluaciones contradictorias recientes han revelado vulnerabilidades en las técnicas de desaprendizaje, lo que demuestra que la información supuestamente eliminada aún se puede extraer mediante el sondeo de representaciones internas o el ajuste de modelos no aprendidos. Estos hallazgos subrayan la necesidad de métodos de desaprendizaje más sólidos y protocolos de evaluación exhaustivos.

Este estudio realizado por investigadores de ETH Zurich y la Universidad de Princeton cuestiona las diferencias fundamentales entre desaprender y ajustar la seguridad tradicional desde una perspectiva adversa. Usando el Punto de referencia del WMDP Para medir el conocimiento peligroso en los LLM, la investigación sostiene que el desaprendizaje solo es posible si se puede recuperar una precisión significativa actualizando los pesos del modelo o con datos que tengan una mínima información mutua con el conocimiento objetivo. El estudio lleva a cabo una evaluación integral de métodos de desaprendizaje de conocimientos peligrosos de última generación, comparándolos con la capacitación en seguridad tradicional con DPO. Los hallazgos revelan vulnerabilidades en las técnicas actuales de desaprendizaje, enfatizando las limitaciones de las evaluaciones de caja negra y la necesidad de métodos de desaprendizaje más sólidos.

El estudio se centra en métodos de desaprendizaje para la seguridad, específicamente apuntando a la eliminación de conocimientos peligrosos de modelos de lenguaje grandes. La investigación utiliza conjuntos de olvidar y retener, donde el primero contiene información que se debe desaprender y el segundo conserva la información vecina. La evaluación emplea conjuntos de datos del punto de referencia WMDP para biología y ciberseguridad. El modelo de amenaza supone un acceso de caja blanca a un modelo no aprendido, lo que permite la modificación del peso y la intervención del espacio de activación durante la inferencia. El estudio evalúa RMU, NPO+RT y DPO como métodos de desaprendizaje y capacitación en seguridad. Los experimentos utilizan Zephyr-7B-β como modelo base, ajustado en corpus WMDP y WikiText. GPT-4 genera conjuntos de datos de preferencias para la capacitación de NPO y DPO. El desempeño se evalúa utilizando el punto de referencia WMDP y MMLU para medir la utilidad general después del desaprendizaje.

El estudio emplea una amplia gama de métodos para descubrir capacidades peligrosas en modelos no aprendidos, inspirándose en fugas de seguridad conocidas con modificaciones para apuntar a métodos de desaprendizaje. Estas técnicas incluyen:

1. Ajuste: uso de la adaptación de bajo rango (LoRA) para ajustar modelos no aprendidos en conjuntos de datos con diferentes niveles de información mutua con el conocimiento no aprendido.

2. Ortogonalización: investigar direcciones de rechazo en el espacio de activación de modelos no aprendidos y eliminarlas durante la inferencia.

3. Lente Logit: proyectar activaciones en el flujo residual en el vocabulario del modelo para extraer respuestas de capas intermedias.

4. GCG mejorado: desarrollo de una versión mejorada de Generación condicional basada en gradientes (GCG) que apunta a métodos de desaprendizaje optimizando prefijos para evitar la detección de conocimientos peligrosos.

5. Poda de diferencias de conjuntos: identificación y poda de neuronas asociadas con la alineación de seguridad mediante puntuaciones SNIP y métodos de diferencias establecidas.

Estos enfoques tienen como objetivo evaluar de manera integral la solidez de las técnicas de desaprendizaje y su capacidad para eliminar eficazmente conocimientos peligrosos de los modelos lingüísticos.

El estudio revela importantes vulnerabilidades en los métodos de desaprendizaje. El ajuste fino de solo 10 muestras no relacionadas recupera sustancialmente capacidades peligrosas en todos los métodos. El análisis de Logit Lens muestra que los métodos de desaprendizaje eliminan de manera más efectiva el conocimiento del flujo residual en comparación con la capacitación en seguridad. Las técnicas de ortogonalización recuperan con éxito conocimientos peligrosos, siendo RMU la más vulnerable. Se identificaron y podaron las neuronas críticas responsables del desaprendizaje, lo que condujo a un mayor rendimiento en WMDP. Los prefijos adversarios universales, elaborados con GCG mejorado, aumentaron significativamente la precisión en los puntos de referencia de conocimientos peligrosos para todos los métodos. Estos hallazgos demuestran que tanto la capacitación en seguridad como el desaprendizaje pueden verse comprometidos a través de diversas técnicas, lo que sugiere que el conocimiento no aprendido no se elimina realmente sino que se ofusca.

Esta evaluación integral de caja blanca de métodos de desaprendizaje de última generación para la seguridad de la IA revela vulnerabilidades significativas en los enfoques actuales. El estudio demuestra que las técnicas de desaprendizaje no logran eliminar de manera confiable el conocimiento peligroso de los pesos del modelo, como lo demuestra la recuperación de capacidades supuestamente no aprendidas a través de varios métodos. Estos hallazgos cuestionan la superioridad percibida de los métodos de desaprendizaje sobre la capacitación en seguridad estándar para brindar una protección sólida. La investigación enfatiza la inadecuación de las evaluaciones de caja negra para evaluar la efectividad del desaprendizaje, ya que no logran capturar los cambios del modelo interno. Estos resultados subrayan la necesidad urgente de desarrollar técnicas de desaprendizaje más sólidas e implementar protocolos de evaluación exhaustivos para garantizar la implementación segura de grandes modelos de lenguaje.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Quiere estar frente a más de 1 millón de lectores de IA? Trabaja con nosotros aquí

Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.