FakeShield: un marco de IA explicable para la detección y localización universal de falsificación de imágenes mediante modelos multimodales de lenguaje grande

El rápido avance de la IA generativa ha facilitado la manipulación de imágenes, lo que complica la detección de contenido manipulado. Si bien son efectivos, los métodos actuales de detección y localización de falsificación de imágenes (IFDL) deben abordar dos desafíos clave: la naturaleza de caja negra de sus principios de detección y la generalización limitada a través de varios métodos de manipulación como Photoshop, DeepFake y AIGC-Editing. El auge de potentes modelos de edición de imágenes ha desdibujado aún más la línea entre contenido real y falso, planteando riesgos como desinformación y problemas legales. Para abordar estos desafíos, los investigadores están explorando modelos de lenguaje grande multimodal (M-LLM) para obtener IFDL más explicables, lo que permite una identificación y localización más clara de las regiones manipuladas.

Los métodos IFDL actuales a menudo se centran en tipos de manipulación específicos, mientras que las técnicas universales apuntan a detectar una gama más amplia de manipulaciones mediante la identificación de artefactos e irregularidades en la imagen. Modelos como MVSS-Net y HiFi-Net emplean aprendizaje de funciones de múltiples escalas y módulos de múltiples ramas para mejorar la precisión de la detección. Aunque estos métodos logran un rendimiento satisfactorio, necesitan más explicabilidad y ayuda para generalizar entre diferentes conjuntos de datos. Mientras tanto, los LLM han demostrado habilidades excepcionales de generación de texto y comprensión visual. Estudios recientes han integrado LLM con codificadores de imágenes, pero aún es necesario explorar su uso para la detección y localización universal de manipulaciones.

Investigadores de la Universidad de Pekín y de la Universidad Tecnológica del Sur de China presentaron Escudo falsoun marco explicable de detección y localización de falsificaciones de imágenes (e-IFDL). FakeShield evalúa la autenticidad de la imagen, genera máscaras de regiones manipuladas y explica el uso de pistas de manipulación a nivel de píxel y de imagen. Mejoraron los conjuntos de datos existentes utilizando GPT-4o para crear el conjunto de datos de descripción de manipulación multimodal (MMTD-Set) para entrenamiento. Además, desarrollaron el Módulo de detección de falsificaciones explicable guiado por etiquetas de dominio (DTE-FDM) y el Módulo de localización de falsificaciones multimodal (MFLM) para interpretar diferentes tipos de manipulación y alinear las características del lenguaje visual. Amplios experimentos muestran el rendimiento superior de FakeShield en la detección y localización de diversos métodos de manipulación en comparación con las técnicas IFDL tradicionales.

El conjunto MMTD propuesto mejora los conjuntos de datos IFDL tradicionales al integrar descripciones de texto con información visual sobre manipulación. Con GPT-4o, las imágenes manipuladas y sus máscaras correspondientes se combinan con descripciones detalladas, centrándose en los artefactos de manipulación. El marco FakeShield comprende dos módulos clave: el DTE-FDM para la detección y explicación de manipulaciones y el MFLM para la generación precisa de máscaras. Estos módulos trabajan juntos para mejorar la precisión de la detección y la interpretabilidad. Los experimentos muestran que FakeShield supera a los métodos anteriores en los conjuntos de datos de PhotoShop, DeepFake y AIGC-Editing en la detección y localización de falsificaciones de imágenes.

El conjunto de datos MMTD-Set utiliza Photoshop, DeepFake e imágenes manipuladas de AIGC-Editing autoconstruidas para entrenamiento y pruebas. El marco FakeShield propuesto, que incorpora DTE-FDM y MFLM, se compara con métodos de última generación como SPAN, MantraNet y HiFi-Net. Los resultados demuestran un rendimiento superior en la detección y localización de falsificaciones en múltiples conjuntos de datos. La integración de FakeShield de GPT-4o y etiquetas de dominio mejora su capacidad para manejar diversos tipos de manipulación, haciéndolo más robusto y preciso que los métodos de localización y detección de falsificación de imágenes de la competencia.

En conclusión, el estudio presenta FakeShield, una aplicación pionera de M-LLM para IFDL explicable. FakeShield puede detectar manipulaciones, generar máscaras de regiones manipuladas y proporcionar explicaciones mediante el análisis de pistas semánticas y a nivel de píxeles. Aprovecha el MMTD-Set creado con GPT-4o para mejorar el análisis de manipulación. Al incorporar DTE-FDM y MFLM, FakeShield logra una detección y localización sólidas en diversos tipos de manipulación, como ediciones de Photoshop, DeepFake y modificaciones basadas en AIGC, superando a los métodos existentes en explicabilidad y precisión.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.