LoRID: un innovador método de difusión iterativa de bajo rango para la eliminación de ruidos adversos

Las redes neuronales se adoptan ampliamente en varios campos debido a su capacidad para modelar patrones y relaciones complejos. Sin embargo, enfrentan una vulnerabilidad crítica a los ataques adversarios: pequeños cambios maliciosos en la entrada que causan resultados impredecibles. Este problema plantea desafíos importantes para la confiabilidad y seguridad de los modelos de aprendizaje automático en varias aplicaciones. Si bien se han desarrollado varios métodos de defensa, como el entrenamiento y la purificación adversarios, a menudo no brindan una protección sólida contra ataques sofisticados. El auge de los modelos de difusión ha llevado a purificaciones adversarias basadas en la difusión, lo que mejora la solidez. Sin embargo, estos métodos enfrentan desafíos como complejidades computacionales y el riesgo de nuevas estrategias de ataque que pueden debilitar las defensas del modelo.

Uno de los métodos existentes para abordar los ataques adversarios incluye los modelos probabilísticos de difusión de eliminación de ruido (DDPM), una clase de modelos generativos que agregan ruido a las señales de entrada durante el entrenamiento y luego aprenden a eliminar el ruido de la señal ruidosa resultante. Otros enfoques incluyen los modelos de difusión como purificadores adversarios que se incluyen en la purificación basada en Markov (o basada en DDPM) y la purificación basada en puntaje. Introduce un término guiado para preservar la semántica de la muestra y DensePure, que utiliza múltiples muestras invertidas y votación por mayoría para las predicciones finales. Por último, la descomposición de Tucker, un método para analizar matrices de datos de alta dimensión, ha demostrado potencial en la extracción de características, presentando un camino potencial para mejorar las técnicas de purificación adversaria.

Los investigadores de la División Teórica y Ciencias Computacionales del Laboratorio Nacional de Los Álamos, en Los Álamos, Nuevo México, han propuesto LoRID, un novedoso método de purificación por difusión iterativa de bajo rango diseñado para eliminar perturbaciones adversas con errores de purificación intrínsecos bajos. LoRID supera las limitaciones de los métodos de purificación actuales basados ​​en la difusión al proporcionar una comprensión teórica de los errores de purificación asociados con los métodos de difusión basados ​​en Markov. Además, utiliza un proceso de purificación de múltiples etapas, que integra múltiples rondas de bucles de eliminación de ruido de difusión en pasos de tiempo tempranos de modelos de difusión con descomposición de Tucker. Esta integración elimina el ruido adversario en regímenes de alto ruido y mejora la robustez contra ataques adversarios fuertes.

La arquitectura de LoRID se evalúa en múltiples conjuntos de datos, incluidos CIFAR-10/100, CelebA-HQ e ImageNet, y se compara su rendimiento con métodos de defensa de última generación (SOTA). Utiliza WideResNet para la clasificación y evalúa la precisión estándar y robusta. El rendimiento de LoRID se prueba bajo dos modelos de amenaza: ataques de caja negra y de caja blanca. En la caja negra, el atacante solo conoce el clasificador, mientras que en la configuración de caja blanca, el atacante tiene pleno conocimiento tanto del clasificador como del esquema de purificación. El método propuesto se evalúa con AutoAttack para CIFAR-10/100 y BPDA+EOT para CelebA-HQ en configuraciones de caja negra, y AutoAttack y PGD+EOT en escenarios de caja blanca.

Los resultados evaluados demostraron el desempeño superior de LoRID en múltiples conjuntos de datos y escenarios de ataque. Mejora significativamente la precisión estándar y robusta contra ataques automáticos en configuraciones de caja negra y caja blanca en CIFAR-10. Por ejemplo, mejora la precisión robusta de caja negra en un 23,15 % en WideResNet-28-10 y en un 4,27 % en WideResNet-70-16. Para CelebA-HQ, LoRID supera la mejor línea base en un 7,17 % en precisión robusta mientras mantiene una alta precisión estándar contra ataques BPDA+EOT. En niveles altos de ruido (ϵ = 32/255), su robustez supera el desempeño de SOTA en niveles de ruido estándar (ϵ = 8/255) en un 12,8 %, lo que demuestra su potencial sobresaliente en el manejo de perturbaciones adversarias críticas.

En conclusión, los investigadores han presentado LoRID, una innovadora estrategia de defensa contra ataques adversarios que utiliza múltiples bucles en las primeras etapas de los modelos de difusión para purificar los ejemplos adversarios. Este enfoque se mejora aún más mediante la integración de la descomposición de Tucker, que es eficaz en regímenes de alto ruido. La eficacia de LoRID se ha validado mediante análisis teóricos y evaluaciones experimentales detalladas en diversos conjuntos de datos como CIFAR-10/100, ImageNet y CelebA-HQ. El resultado evaluado demuestra el potencial de LoRID como un avance prometedor en el campo de la defensa adversaria, proporcionando una protección mejorada para las redes neuronales contra una amplia gama de estrategias de ataque complejas.


Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Leer más
Back to top button