Alineación multivista y multiescala (MaMA): avance de la mamografía con aprendizaje contrastivo y preentrenamiento del lenguaje visual

Alineación de múltiples vistas y múltiples escalas para el aprendizaje contrastivo de mamografía:
El preentrenamiento de imágenes y lenguaje contrastivo (CLIP) ha demostrado potencial en imágenes médicas, pero su aplicación a la mamografía enfrenta desafíos debido a los datos etiquetados limitados, las imágenes de alta resolución y los conjuntos de datos desequilibrados. Este estudio presenta la primera adaptación completa de CLIP a la mamografía a través de un nuevo marco llamado Alineación de múltiples vistas y múltiples escalas (MaMA). Las complejidades inherentes a la mamografía, como las imágenes de vistas múltiples con pequeñas regiones de interés, la asimetría bilateral y la correspondencia ipsilateral, exigen enfoques especializados. MaMA aborda estos problemas aprovechando la naturaleza de múltiples vistas de la mamografía y alineando las características de la imagen en diferentes escalas. También utiliza un módulo de alineación local simétrica para centrarse en características detalladas y un enfoque de ajuste eficiente de parámetros para mejorar los LLM previamente capacitados con conocimientos médicos. Esto permite que el marco supere la escasez de datos y funcione mejor en las tareas de mamografía.

El modelo MaMA supera significativamente a los métodos de última generación existentes en múltiples tareas en dos grandes conjuntos de datos de mamografía, EMBED y RSNA-Mammo, a pesar de utilizar solo el 52 % del tamaño del modelo en comparación con la línea de base más grande. Al combinar la alineación de imágenes de múltiples vistas y las relaciones texto-imagen, MaMA aprende de manera efectiva representaciones detalladas de imágenes mientras mantiene un uso eficiente de los recursos. Este método demuestra su potencial para mejorar la interpretación de la mamografía mediante un entrenamiento previo del lenguaje visual, mejorando la detección y el diagnóstico del cáncer con menos demandas computacionales. El código está disponible para uso público para promover más investigaciones en esta área.

Métodos de preentrenamiento del lenguaje visual médico:
Los modelos médicos de preentrenamiento del lenguaje visual (VLP) existentes se clasifican en dos tipos. El primero involucra modelos de propósito general entrenados en conjuntos de datos a gran escala con múltiples sitios anatómicos, que muestran una fuerte generalización pero a menudo son superados por modelos de modalidad específica. El segundo tipo se centra en las radiografías de tórax debido a la disponibilidad de conjuntos de datos extensos, aunque enfrentan limitaciones como el desequilibrio de píxeles y la alineación de informes. El aprendizaje contrastivo de múltiples vistas, que alinea imágenes desde diferentes perspectivas, se ha aplicado en mamografía, pero necesita una mayor integración con CLIP para explotar plenamente las señales de supervisión multimodal.

Método:
El marco MaMA propuesto introduce un método para construir informes de mamografía estructurados a partir de datos tabulares e incorpora un enfoque de preentrenamiento de imagen y texto contrastante de múltiples vistas. Utiliza una generación de subtítulos basada en plantillas para mejorar la comprensión de la imagen y evitar una simplificación excesiva. Un marco de aprendizaje contrastivo de múltiples vistas mejora la capacidad del modelo al comparar vistas de mamografía, mientras que el módulo de alineación local simétrica (SLA) permite una correspondencia detallada entre parches de imágenes y texto. Además, se emplea el ajuste eficiente de parámetros (PEFT) de un LLM grande previamente capacitado para mejorar la codificación de texto, mejorando el rendimiento general sin aumentar los costos computacionales.

Rendimiento del modelo en conjuntos de datos de mamografía:
Los experimentos utilizaron el conjunto de datos Emory EMBED, que comprende más de 72 000 mamografías multivista de 23 356 pacientes, divididas en conjuntos de entrenamiento, validación y prueba (70 %/10 %/20 %). La arquitectura del modelo presentaba DiNOv2-ViT-B-14 como codificador de imágenes y BioMedLM como codificador de texto, con ajuste fino mediante LoRA para mayor eficiencia. La capacitación se optimizó utilizando el optimizador AdamW con una tasa de aprendizaje 4E-5, un programador de recocido de coseno y pérdida de SLA. El ajuste de hiperparámetros incluyó un tamaño de lote de 144 en cuatro GPU, y la evaluación principal se centró en la evaluación BI-RADS y la predicción de la densidad mamaria, con métricas como precisión equilibrada (bACC) y AUC.

MaMA, el modelo propuesto, superó a las líneas de base como CLIP, ConVIRT y MM-MIL en configuraciones de ajuste cero y completo. Demostró una mejora del 4 % en la precisión equilibrada de BI-RADS y destacó en la predicción de la densidad mamaria. La solidez de MaMA se validó aún más en el conjunto de datos RSNA-Mammo fuera del dominio para la detección de cáncer, donde logró una precisión equilibrada y puntuaciones de AUC más altas en comparación con las líneas de base, manteniendo al mismo tiempo una sensibilidad y especificidad adecuadas. Esto resalta las fuertes capacidades de generalización de MaMA incluso con datos de entrenamiento limitados.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.