Valores atípicos de datos sintéticos: navegando por la divulgación de identidad

La creación de datos sintéticos utiliza algoritmos sofisticados como GAN, VAE o modelos de difusión para generar conjuntos de datos de imitación que imitan las características estadísticas de los datos del mundo real. Es posible que los métodos tradicionales de anonimización no puedan resolver problemas de privacidad como violaciones o reidentificación, pero las soluciones sintéticas sí lo hacen. Incluso con reglas rigurosas para compartir datos, las organizaciones pueden mantener la utilidad de los datos para actividades como el aprendizaje automático y al mismo tiempo fomentar la creatividad y el trabajo en equipo.

Investigaciones recientes sobre privacidad de datos sintéticos han explorado métodos como los enfoques basados en GAN, basados en Marginal y basados en cargas de trabajo, y los métodos basados en Marginal funcionan mejor al preservar las propiedades de los datos. A menudo se utilizan técnicas de privacidad diferencial para reducir los riesgos de reidentificación, equilibrando la privacidad y la utilidad. Herramientas como TAPAS y marcos como Anonymeter evalúan las vulnerabilidades a los ataques a la privacidad, pero persisten las preocupaciones sobre mantener la precisión de los datos y al mismo tiempo garantizar la protección de la privacidad. Sin embargo, la semejanza entre los datos sintéticos y los originales puede introducir riesgos para la privacidad, particularmente a través de la reidentificación. Los puntos de datos únicos o raros (valores atípicos) son especialmente vulnerables, ya que sin darse cuenta pueden contener rasgos identificables del conjunto de datos original. Si bien los datos sintéticos se consideran una solución de privacidad sólida, muchas investigaciones pasan por alto estos riesgos, destacando la necesidad de salvaguardias adicionales para garantizar una verdadera protección de la privacidad.

Para abordar esta brecha, un equipo de investigación estadounidense-portugués publicó recientemente un artículo que analiza los riesgos para la privacidad de los datos sintéticos relacionados con valores atípicos. Sus hallazgos revelan que la reidentificación de valores atípicos mediante ataques de vinculación es factible y fácilmente alcanzable. Además, demuestran que salvaguardas adicionales, como la privacidad diferencial, pueden mitigar los riesgos de reidentificación, pero a menudo conllevan costos reducidos de utilidad de datos.

El equipo de investigación siguió una metodología integral para evaluar la privacidad y la utilidad de los datos sintéticos, centrándose en los riesgos de reidentificación de valores atípicos. Utilizaron el conjunto de datos Credit Risk, a partir del cual generaron datos sintéticos utilizando modelos de aprendizaje profundo (TVAE, CTGAN, CopulaGAN) y modelos de privacidad diferencial (Independent, PrivBayes, DPsynthpop) para crear 102 variantes sintéticas. La utilidad de los datos sintéticos se evaluó mediante SDMetrics, que midió aspectos como el cumplimiento de los límites, la cobertura de categorías, la cobertura de rangos y la similitud estadística entre los conjuntos de datos originales y sintéticos. Para evaluar la privacidad, el equipo realizó un ataque de vinculación identificando valores atípicos utilizando el método de puntuación z y luego intentando vincular puntos de datos sintéticos con los datos originales basándose en cuasiidentificadores. Se utilizaron técnicas de vinculación de registros para evaluar posibles coincidencias, incluido el método de Gauss para datos numéricos y el método de Levenshtein para datos categóricos. Los resultados se filtraron y agregaron para determinar con qué facilidad se podrían volver a identificar los datos sintéticos, centrándose particularmente en los valores atípicos.

El estudio encontró que los modelos diferenciales basados en la privacidad como DPsynthpop tenían una menor utilidad de datos, especialmente en lo que respecta a la cobertura de atributos y la similitud estadística, pero generaban menos valores atípicos. Por el contrario, los modelos de aprendizaje profundo produjeron datos de mayor calidad pero tuvieron más valores atípicos.

Los ataques de vinculación revelaron que la reidentificación era posible, y que los modelos de aprendizaje profundo presentaban un mayor riesgo para la privacidad debido a más reidentificaciones potenciales que los modelos diferenciales basados en la privacidad. El estudio también mostró un equilibrio entre privacidad y calidad de los datos. La protección diferencial de la privacidad comprometió la calidad de los datos, mientras que los modelos de aprendizaje profundo mejoraron la calidad de los datos pero aumentaron el riesgo de reidentificación, especialmente con más épocas de entrenamiento.

En resumen, el estudio analizó la eficacia de los riesgos de reidentificación relacionados con los modelos para la creación de datos sintéticos, haciendo hincapié en la protección de puntos de datos extremos o valores atípicos. Los resultados mostraron que la protección de los valores atípicos dependía del modelo. Mientras que los modelos diferenciales basados en la privacidad produjeron más valores atípicos a costa de la calidad de los datos, los modelos basados en el aprendizaje profundo produjeron valores más frecuentes. Para demostrar las debilidades de los datos sintéticos, el equipo de estudio también llevó a cabo un ataque de vinculación, mostrando cómo se pueden utilizar valores atípicos para volver a identificar información personal.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias

Mahmoud es un investigador de doctorado en aprendizaje automático. También posee un
Licenciatura en Ciencias Físicas y Maestría en
sistemas de telecomunicaciones y redes. Sus áreas actuales de
Las investigaciones se refieren a la visión por computadora, la predicción del mercado de valores y la profundidad.
aprendiendo. Produjo varios artículos científicos sobre la relación de personas.
identificación y estudio de la robustez y estabilidad de profundidades
redes.

🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.