Investigadores de Microsoft presentan RadEdit: modelos de visión biomédicos para pruebas de estrés mediante edición de imágenes por difusión para eliminar el sesgo del conjunto de datos

Los modelos de visión biomédicos se utilizan cada vez más en entornos clínicos, pero un desafío importante es su incapacidad para generalizarse de manera efectiva debido a cambios de conjuntos de datos—Discrepancias entre los datos de entrenamiento y los escenarios del mundo real. Estos cambios surgen de diferencias en la adquisición de imágenes, cambios en las manifestaciones de las enfermedades y variación de la población. Como resultado, los modelos entrenados con conjuntos de datos limitados o sesgados a menudo funcionan mal en aplicaciones del mundo real, lo que representa un riesgo para la seguridad del paciente. El desafío radica en desarrollar métodos para identificar y abordar estos sesgos antes de que los modelos se implementen en entornos clínicos, garantizando que sean lo suficientemente sólidos para manejar la complejidad y variabilidad de los datos médicos.

Las estrategias actuales para abordar los cambios en los conjuntos de datos a menudo implican el uso de datos sintéticos generados por modelos de aprendizaje profundo como las GAN y los modelos de difusión. Si bien estos enfoques se han mostrado prometedores en la simulación de nuevos escenarios, están plagados de varias limitaciones. Métodos como LANCE y DiffEdit, que intentan modificar características específicas dentro de imágenes médicas, a menudo introducen cambios no deseados, como alterar características anatómicas no relacionadas o introducir artefactos visuales. Estas inconsistencias reducen la confiabilidad de estas técnicas en modelos de pruebas de estrés para aplicaciones médicas del mundo real. Por ejemplo, un enfoque basado en una única máscara como DiffEdit lucha contra correlaciones falsas, lo que provoca que las características clave se alteren incorrectamente, lo que limita su eficacia.

Un equipo de investigadores de Microsoft Health Futures, la Universidad de Edimburgo, la Universidad de Cambridge, la Universidad de California y la Universidad de Stanford proponen Radun novedoso enfoque de edición de imágenes basado en difusión diseñado específicamente para abordar las deficiencias de los métodos anteriores. RadEdit utiliza múltiples máscaras de imágenes para controlar con precisión qué regiones de una imagen médica se editan y al mismo tiempo preserva la integridad de las áreas circundantes. Este marco de máscaras múltiples garantiza que se eviten correlaciones espurias, como la coexistencia de drenajes torácicos y neumotórax en las radiografías de tórax, manteniendo la coherencia visual y estructural de la imagen. La capacidad de RadEdit para generar conjuntos de datos sintéticos de alta fidelidad le permite simular cambios en conjuntos de datos del mundo real, exponiendo así modos de falla en modelos de visión biomédica. Este método propuesto presenta una contribución significativa a los modelos de pruebas de estrés bajo condiciones de adquisición, manifestación y cambios de población, ofreciendo una solución más precisa y sólida.

RadEdit se basa en un modelo de difusión latente entrenado en más de 487 000 imágenes de rayos X de tórax de grandes conjuntos de datos, incluidos MIMIC-CXR, ChestX-ray8 y CheXpert. El sistema aprovecha máscaras duales: una máscara de edición para las regiones que se van a modificar y una máscara de conservación para las áreas que deben permanecer inalteradas. Este diseño garantiza que las ediciones se localicen sin alterar otras estructuras anatómicas críticas, lo cual es crucial en aplicaciones médicas. RadEdit utiliza el modelo BioViL-T, un modelo de visión y lenguaje de dominio específico para imágenes médicas, para evaluar la calidad de sus ediciones a través de puntuaciones de alineación de imagen y texto, asegurando que las imágenes sintéticas representen con precisión condiciones médicas sin introducir artefactos visuales.

La evaluación de RadEdit demostró su eficacia en las pruebas de estrés de modelos de visión biomédicos en tres escenarios de cambio de conjuntos de datos. En el turno de adquisición En las pruebas, RadEdit expuso una caída significativa del rendimiento en un clasificador COVID-19 débil, con una precisión que cayó del 99,1 % en datos de entrenamiento sesgados a solo el 5,5 % en datos de pruebas sintéticos, lo que revela la dependencia del modelo de factores de confusión. Para cambio de manifestacióncuando se eliminó el neumotórax mientras se conservaban los drenajes torácicos, la precisión del clasificador cayó del 93,3% al 17,9%, lo que destaca su incapacidad para distinguir entre la enfermedad y los artefactos del tratamiento. En el cambio de población En este escenario, RadEdit agregó anomalías a las radiografías de pulmones sanos, lo que provocó disminuciones sustanciales en el rendimiento del modelo de segmentación, particularmente en las puntuaciones de Dice y las métricas de error. Sin embargo, los modelos más sólidos entrenados con datos diversos mostraron una mayor resiliencia en todos los turnos, lo que subraya la capacidad de RadEdit para identificar las vulnerabilidades del modelo y evaluar la solidez en diversas condiciones.

En conclusión, RadEdit representa un enfoque innovador para probar modelos de visión biomédicos mediante la creación de conjuntos de datos sintéticos realistas que simulan cambios críticos en los conjuntos de datos. Al aprovechar múltiples máscaras y edición avanzada basada en difusión, RadEdit mitiga las limitaciones de los métodos anteriores, asegurando que las ediciones sean precisas y se minimicen los artefactos. RadEdit tiene el potencial de mejorar significativamente la solidez de los modelos médicos de IA, mejorando su aplicabilidad en el mundo real y, en última instancia, contribuyendo a sistemas de atención médica más seguros y eficaces.

Mira el Papel y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

Suscríbase al boletín de ML de más rápido crecimiento con más de 26.000 suscriptores

Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.