MathPrompt: un nuevo método de IA para evadir los mecanismos de seguridad de la IA mediante codificación matemática

La seguridad de la inteligencia artificial (IA) se ha convertido en un área de investigación cada vez más crucial, en particular a medida que se emplean modelos de lenguaje extensos (LLM) en diversas aplicaciones. Estos modelos, diseñados para realizar tareas complejas, como resolver problemas matemáticos simbólicos, deben protegerse contra la generación de contenido dañino o poco ético. A medida que los sistemas de IA se vuelven más sofisticados, es esencial identificar y abordar las vulnerabilidades que surgen cuando actores maliciosos intentan manipular estos modelos. La capacidad de evitar que la IA genere resultados dañinos es fundamental para garantizar que la tecnología de IA continúe beneficiando a la sociedad de manera segura.

A medida que los modelos de IA siguen evolucionando, no son inmunes a los ataques de personas que buscan explotar sus capacidades con fines dañinos. Un desafío importante es la creciente posibilidad de que los mensajes dañinos, inicialmente diseñados para producir contenido poco ético, puedan disfrazarse o transformarse ingeniosamente para eludir los mecanismos de seguridad existentes. Esto crea un nuevo nivel de riesgo, ya que los sistemas de IA están entrenados para evitar la producción de contenido inseguro. Aun así, estas protecciones podrían no extenderse a todos los tipos de entrada, especialmente cuando se trata de razonamiento matemático. El problema se vuelve particularmente peligroso cuando la capacidad de la IA para comprender y resolver ecuaciones matemáticas complejas se utiliza para ocultar la naturaleza dañina de ciertos mensajes.

Para abordar este problema, se han aplicado mecanismos de seguridad como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF, por sus siglas en inglés) a los LLM. Los ejercicios de trabajo en equipo, que someten a prueba estos modelos alimentándolos deliberadamente con indicaciones dañinas o adversarias, tienen como objetivo fortalecer los sistemas de seguridad de la IA. Sin embargo, estos métodos no son infalibles. Las medidas de seguridad existentes se han centrado principalmente en identificar y bloquear las entradas dañinas del lenguaje natural. Como resultado, siguen existiendo vulnerabilidades, en particular en el manejo de entradas codificadas matemáticamente. A pesar de sus mejores esfuerzos, los enfoques de seguridad actuales no impiden por completo que la IA sea manipulada para generar respuestas poco éticas a través de métodos no lingüísticos más sofisticados.

En respuesta a esta brecha crítica, investigadores de la Universidad de Texas en San Antonio, la Universidad Internacional de Florida y el Tecnológico de Monterrey desarrollaron un enfoque innovador llamado MathPrompt. Esta técnica introduce una forma novedosa de desbloquear los LLM explotando sus capacidades en matemáticas simbólicas. Al codificar indicaciones dañinas como problemas matemáticos, MathPrompt elude las barreras de seguridad de la IA existentes. El equipo de investigación demostró cómo estas entradas codificadas matemáticamente podían engañar a los modelos para que generaran contenido dañino sin activar los protocolos de seguridad que son efectivos para las entradas de lenguaje natural. Este método es particularmente preocupante porque revela cómo las vulnerabilidades en el manejo de la lógica simbólica de los LLM pueden manipularse con fines nefastos.

MathPrompt implica transformar instrucciones dañinas en lenguaje natural en representaciones matemáticas simbólicas. Estas representaciones emplean conceptos de la teoría de conjuntos, el álgebra abstracta y la lógica simbólica. Las entradas codificadas se presentan luego al LLM como problemas matemáticos complejos. Por ejemplo, una indicación dañina que pregunte cómo realizar una actividad ilegal podría codificarse en una ecuación algebraica o una expresión de teoría de conjuntos, que el modelo interpretaría como un problema legítimo para resolver. Los mecanismos de seguridad del modelo, entrenados para detectar indicaciones dañinas en lenguaje natural, no reconocen el peligro en estas entradas codificadas matemáticamente. Como resultado, el modelo procesa la entrada como un problema matemático seguro, produciendo inadvertidamente salidas dañinas que de otro modo habrían sido bloqueadas.

Los investigadores realizaron experimentos para evaluar la eficacia de MathPrompt, probándolo en 13 LLM diferentes, incluidos GPT-4o de OpenAI, Claude 3 de Anthropic y los modelos Gemini de Google. Los resultados fueron alarmantes, con una tasa de éxito de ataque promedio del 73,6%. Esto indica que más de siete de cada diez veces, los modelos produjeron resultados dañinos cuando se les presentaron indicaciones codificadas matemáticamente. Entre los modelos probados, GPT-4o mostró la mayor vulnerabilidad, con una tasa de éxito de ataque del 85%. Otros modelos, como Claude 3 Haiku y Gemini 1.5 Pro de Google, demostraron una susceptibilidad igualmente alta, con tasas de éxito del 87,5% y el 75%, respectivamente. Estas cifras resaltan la grave insuficiencia de las medidas de seguridad actuales de la IA cuando se trata de entradas matemáticas simbólicas. Además, se descubrió que desactivar las funciones de seguridad en ciertos modelos, como Gemini de Google, solo aumentaba marginalmente la tasa de éxito, lo que sugiere que la vulnerabilidad radica en la arquitectura fundamental de estos modelos más que en sus configuraciones de seguridad específicas.

Los experimentos revelaron además que la codificación matemática produce un cambio semántico significativo entre el mensaje original dañino y su versión matemática. Este cambio de significado permite que el contenido dañino eluda la detección de los sistemas de seguridad del modelo. Los investigadores analizaron los vectores de incrustación de los mensajes originales y codificados y encontraron una divergencia semántica sustancial, con una puntuación de similitud de coseno de solo 0,2705. Esta divergencia resalta la eficacia de MathPrompt para disfrazar la naturaleza dañina de la entrada, haciendo que sea casi imposible para los sistemas de seguridad del modelo reconocer el contenido codificado como malicioso.

En conclusión, el método MathPrompt expone una vulnerabilidad crítica en los mecanismos de seguridad actuales de la IA. El estudio subraya la necesidad de medidas de seguridad más integrales para varios tipos de entrada, incluidas las matemáticas simbólicas. Al revelar cómo la codificación matemática puede eludir las características de seguridad existentes, la investigación exige un enfoque holístico de la seguridad de la IA, que incluya una exploración más profunda de cómo los modelos procesan e interpretan las entradas no lingüísticas.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)