Este documento sobre IA del Centro para la Gobernanza de la IA propone una rúbrica de calificación para los marcos de seguridad de la IA

Los marcos de seguridad de la IA han surgido como políticas de gestión de riesgos cruciales para las empresas de IA que desarrollan sistemas de IA de vanguardia. Estos marcos tienen como objetivo abordar los riesgos catastróficos asociados con la IA, incluidas las amenazas potenciales de armas químicas o biológicas, los ciberataques y la pérdida de control. El principal desafío radica en determinar un nivel de riesgo “aceptable”, ya que actualmente no existe un estándar universal. Cada desarrollador de IA debe establecer su umbral, creando un panorama diverso de enfoques de seguridad. Esta falta de estandarización plantea desafíos importantes para garantizar una gestión de riesgos consistente e integral en toda la industria de la IA.

La investigación existente sobre los marcos de seguridad de la IA es limitada, dada su reciente aparición. Se han desarrollado cuatro áreas principales de investigación: marcos de seguridad existentes, recomendaciones para marcos de seguridad, revisiones de marcos existentes y criterios de evaluación. Varias empresas líderes en IA, incluidas Anthropic, OpenAI, Google DeepMind y Magic, han publicado sus marcos de seguridad. Estos marcos, como la Política de escalamiento responsable de Anthropic y el Marco de preparación de OpenAI, representan los primeros intentos concretos de implementar estrategias integrales de gestión de riesgos para sistemas de IA de vanguardia.

Las recomendaciones para los marcos de seguridad provienen de diversas fuentes, incluidas organizaciones como METR y organismos gubernamentales como el Departamento de Ciencia, Innovación y Tecnología del Reino Unido. Estas recomendaciones describen los componentes y prácticas clave que deberían incorporarse en marcos de seguridad eficaces. Los académicos han realizado revisiones de los marcos existentes, comparándolos y evaluándolos con las directrices y prácticas de seguridad propuestas. Sin embargo, los criterios de evaluación para estos marcos siguen estando poco desarrollados, y solo una fuente clave propone criterios específicos para evaluar su solidez para abordar los riesgos avanzados de la IA.

Los investigadores del Centro para la Gobernanza de la IA han intentado dar importancia al desarrollo de criterios de evaluación eficaces para los marcos de seguridad de la IA, lo que es crucial por varias razones. En primer lugar, ayuda a identificar las deficiencias de los marcos existentes, lo que permite a las empresas realizar las mejoras necesarias a medida que los sistemas de IA avanzan y plantean mayores riesgos. Este proceso es análogo a la revisión por pares en la investigación científica, que promueve el perfeccionamiento y la mejora continuos de los estándares de seguridad. En segundo lugar, un sistema de evaluación sólido puede incentivar una “carrera hacia la cima” entre las empresas de IA en su esfuerzo por lograr calificaciones más altas y ser percibidas como líderes responsables de la industria.

Además de eso, estas habilidades de evaluación pueden volverse esenciales para futuros requisitos regulatorios, preparando tanto a las empresas como a los reguladores para posibles evaluaciones de cumplimiento bajo diversos enfoques regulatorios. Por último, los juicios públicos sobre los marcos de seguridad de la IA pueden informar y educar al público en general, proporcionando una validación externa muy necesaria de las afirmaciones de seguridad de las empresas. Esta transparencia es particularmente importante para combatir el posible “lavado de imagen de la seguridad” y ayudar al público a comprender el complejo panorama de las medidas de seguridad de la IA.

Los investigadores han propuesto un método robusto, introduciendo un análisis integral rúbrica de calificación para evaluar los marcos de seguridad de la IA. Esta rúbrica está estructurada en torno a tres categorías clave: eficacia, cumplimiento y garantía. Estas categorías se alinean con los resultados descritos en los compromisos de seguridad de la IA en la frontera. Dentro de cada categoría, se definen criterios e indicadores de evaluación específicos para proporcionar una base concreta para la evaluación. La rúbrica emplea una escala de calificación que va desde A (estándar de oro) a F (subestándar) para cada criterio.lo que permite una evaluación matizada de los diferentes aspectos de los marcos de seguridad de la IA. Este enfoque estructurado permite una evaluación exhaustiva y sistemática de la calidad y la solidez de las medidas de seguridad implementadas por las empresas de IA.

El método propuesto para aplicar la rúbrica de calificación a los marcos de seguridad de la IA implica tres enfoques principales: encuestas, estudios Delphi y auditoríasEn el caso de las encuestas, el proceso incluye el diseño de preguntas que evalúan cada criterio en una escala de la A a la F, su distribución entre expertos en seguridad y gobernanza de la IA y el análisis de las respuestas para determinar las calificaciones promedio y los conocimientos clave. Este método ofrece un equilibrio entre la eficiencia de los recursos y el criterio de los expertos.

Los estudios Delphi representan un enfoque más integral, que implica múltiples rondas de evaluación y debate. Los participantes califican inicialmente los marcos y brindan fundamentos, y luego participan en talleres para discutir respuestas agregadas. Este proceso iterativo permite la creación de consenso y la exploración en profundidad de cuestiones complejas. Si bien requieren mucho tiempo, los estudios Delphi utilizan la experiencia colectiva para producir evaluaciones matizadas de los marcos de seguridad de la IA.

Las auditorías, aunque no se detallan en el texto proporcionado, probablemente implican un proceso de evaluación más formal y estructurado. El método recomienda calificar cada criterio de evaluación en lugar de indicadores individuales o categorías generales, logrando un equilibrio entre los matices y la practicidad en la evaluación. Este enfoque permite un examen exhaustivo de los marcos de seguridad de la IA y, al mismo tiempo, mantiene un proceso de evaluación manejable.

La rúbrica de calificación propuesta para los marcos de seguridad de la IA está diseñada para proporcionar una evaluación integral y matizada en tres categorías clave: eficacia, adherencia y garantía. Los criterios de eficacia, centrados en la credibilidad y la solidez, evalúan el potencial del marco para mitigar los riesgos si se implementa correctamente. La credibilidad se evalúa en función de las vías causales, la evidencia empírica y la opinión de expertos, mientras que la solidez considera los márgenes de seguridad, las redundancias, las pruebas de estrés y los procesos de revisión.

Los criterios de adhesión examinan la viabilidad, el cumplimiento y el empoderamiento, garantizando que el marco sea realista y que sea probable que se cumpla. Esto incluye evaluar la dificultad del compromiso, la competencia del desarrollador, la asignación de recursos, la propiedad, los incentivos, el seguimiento y la supervisión. Los criterios de garantía, que abarcan la transparencia y el escrutinio externo, evalúan la capacidad de terceros para verificar la eficacia y la adherencia al marco.

Los beneficios clave de este método de evaluación incluyen:

1. Evaluación integral: La rúbrica cubre múltiples aspectos de los marcos de seguridad, proporcionando una evaluación holística.

2. Flexibilidad: La escala de calificación de la A a la F permite evaluaciones matizadas de cada criterio.

3. Transparencia: Los indicadores claros para cada criterio hacen que el proceso de evaluación sea más transparente y replicable.

4. Orientación para la mejora: Los criterios e indicadores detallados proporcionan áreas específicas para la mejora del marco.

5. Confianza de las partes interesadas: una evaluación rigurosa mejora la confianza en las medidas de seguridad de las empresas de IA.

Este método permite una evaluación exhaustiva y sistemática de los marcos de seguridad de la IA, lo que potencialmente impulsa mejoras en los estándares de seguridad en toda la industria.

La rúbrica de calificación propuesta para los marcos de seguridad de la IA, si bien es exhaustiva, tiene seis limitaciones principales:

1. Falta de recomendaciones prácticas: la rúbrica identifica eficazmente áreas de mejora, pero no proporciona orientación específica sobre cómo mejorar los marcos de seguridad.

2. Subjetividad en la medición: Muchos criterios, como la solidez y la viabilidad, son conceptos abstractos que son difíciles de medir objetivamente, lo que genera posibles inconsistencias en la calificación.

3. Requisito de experiencia: los evaluadores necesitan conocimientos especializados en seguridad de IA para evaluar ciertos criterios con precisión, lo que limita el grupo de calificadores calificados.

4. Posible incompletitud: Los criterios de evaluación pueden no ser exhaustivos y posiblemente pasen por alto factores críticos a la hora de evaluar los marcos de seguridad debido a la novedad del campo.

5. Dificultad en la diferenciación de niveles: el sistema de calificación de seis niveles puede generar desafíos a la hora de distinguir entre los niveles de calidad, particularmente en los niveles intermedios, lo que potencialmente reduce la precisión de las evaluaciones.

6. Ponderación igual de los criterios: la rúbrica no asigna diferentes pesos a los criterios en función de su importancia, lo que podría llevar a evaluaciones generales engañosas si los lectores agregan las puntuaciones intuitivamente.

Estas limitaciones ponen de relieve los desafíos que supone crear un método de evaluación estandarizado para el complejo y cambiante campo de los marcos de seguridad de la IA. Subrayan la necesidad de perfeccionar constantemente las herramientas de evaluación y de interpretar con cuidado los resultados de las calificaciones.

En este artículo se presenta una sólida rúbrica de calificación para evaluar los marcos de seguridad de la IA, lo que representa una contribución significativa al campo de la gobernanza y la seguridad de la IA. La rúbrica propuesta comprende siete criterios de calificación integrales, cada uno de ellos respaldado por 21 indicadores específicos para proporcionar pautas de evaluación concretas. Esta estructura permite una evaluación matizada de los marcos de seguridad de la IA en una escala de A (estándar de oro) a F (subestándar).

Los investigadores destacan la aplicabilidad práctica de su trabajo y alientan su adopción por una amplia gama de partes interesadas, incluidos gobiernos, investigadores y organizaciones de la sociedad civil. Al proporcionar esta herramienta de evaluación estandarizada, los autores pretenden facilitar evaluaciones más consistentes y exhaustivas de los marcos de seguridad de la IA existentes. Este enfoque puede impulsar mejoras en los estándares de seguridad en toda la industria de la IA y fomentar una mayor responsabilidad entre las empresas de IA.

El diseño de la rúbrica, que combina criterios detallados con flexibilidad en la puntuación, la posiciona como un recurso valioso para los esfuerzos en curso por mejorar las medidas de seguridad de la IA. Al promover el uso generalizado de este método de evaluación, los investigadores pretenden contribuir al desarrollo de prácticas de seguridad de la IA más sólidas, efectivas y transparentes en el campo de la inteligencia artificial, que evoluciona rápidamente.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)