BioMed-VITAL: un marco de IA alineado con los médicos para el ajuste de la instrucción visual biomédica

Los avances recientes en modelos básicos multimodales como GPT-4V han mostrado un sólido rendimiento en tareas generales de datos visuales y textuales. Sin embargo, adaptar estos modelos a dominios especializados como la biomedicina requiere grandes conjuntos de datos de instrucciones específicos de cada dominio. Si bien se ha explorado la generación automática de conjuntos de datos, estos conjuntos de datos a menudo necesitan una mayor alineación con el conocimiento experto, lo que limita su aplicabilidad en el mundo real. El ajuste de instrucciones, que afina los modelos utilizando indicaciones específicas para tareas, ha sido efectivo pero depende de conjuntos de datos extensos y costosos. Los desafíos incluyen la falta de generadores de datos disponibles públicamente y datos limitados anotados por médicos, lo que obstaculiza el desarrollo de modelos alineados por expertos para aplicaciones especializadas.

Investigadores de la Universidad de Stanford y la Facultad de Medicina de Harvard han desarrollado un marco llamado Ajuste de instrucción visual biomédica con alineación de preferencias clínicas (BioMed-VITAL). Este enfoque centrado en datos integra las preferencias de los médicos al generar y seleccionar datos de instrucción para modelos básicos biomédicos multimodales. Inicialmente, las demostraciones seleccionadas por los médicos guían la generación de datos relevantes utilizando GPT-4V. Posteriormente, un modelo de selección, informado por datos anotados por médicos y anotados por modelos, clasifica las muestras generadas según la calidad. El marco mejora significativamente el rendimiento del modelo, logrando una mejora del 18,5 % en el chat visual abierto y una tasa de ganancia del 81,73 % en la respuesta visual a preguntas biomédicas.

El ajuste de instrucciones se ha convertido en una técnica poderosa para adaptar modelos de lenguaje previamente entrenados a diversas tareas de lenguaje natural al proporcionar instrucciones y ejemplos específicos de cada tarea. Estudios notables como FLANT5, LLaMA y LLaMA2 han demostrado su eficacia sin grandes ajustes. Enfoques recientes sugieren el uso de modelos de lenguaje robustos para generar automáticamente datos de instrucción de alta calidad, lo que permite una capacitación rentable, como se ve con el uso de text-davinci-003 por parte de Stanford Alpaca para sintonizar la instrucción LLaMA. La adaptación de modelos de visión y lenguaje plantea desafíos en el campo biomédico debido a los datos de entrenamiento limitados. Este trabajo tiene como objetivo crear un método centrado en datos que alinee la experiencia del médico con los datos de instrucción para mejorar el ajuste de la instrucción.

El marco BioMed-VITAL para el ajuste de la instrucción visual biomédica alineada con el médico consta de tres etapas: generación de datos, selección de datos y ajuste de la instrucción. En la primera etapa, se utilizan diversas demostraciones seleccionadas por expertos con el modelo GPT-4V para crear un conjunto de datos instructivos. La segunda etapa implica entrenar un modelo de selección de datos que destila las preferencias de los médicos a partir de anotaciones humanas y evaluaciones basadas en modelos para filtrar muestras de baja calidad. Finalmente, en la fase de ajuste de la instrucción, el conjunto de datos seleccionado adapta un modelo multimodal general para tareas biomédicas, mejorando su desempeño a través del aprendizaje dirigido a datos relevantes para el médico.

El estudio de BioMed-VITAL generó datos de instrucción de control de calidad de múltiples rondas a partir de pares de imagen y texto en el conjunto de datos PMC-15M utilizando la API de visión GPT-4 y BiomedCLIP. El ajuste de instrucciones empleó el modelo llava-v1.5-13b para mejorar la alineación con las preferencias del médico. La combinación óptima de datos de entrenamiento fue una proporción de 1:400 entre las preferencias humanas y del modelo, logrando un rendimiento máximo con un peso de 400. BioMed-VITAL superó la línea de base de LLaVA-Med en evaluaciones de chat visual médico abierto, sobresaliendo en precisión y recuperación. a través de puntos de referencia como VQA-RAD, SLAKE y PathVQA, lo que demuestra la eficacia de incorporar las preferencias de los médicos en la generación y selección de datos.

En conclusión, el estudio presenta BioMed-VITAL, un marco centrado en datos diseñado para ajustar la instrucción visual biomédica que se alinea estrechamente con las preferencias de los médicos. Al integrar la experiencia de los médicos en los procesos de generación y selección de datos, BioMed-VITAL crea conjuntos de datos de alta calidad que mejoran el rendimiento de los modelos de ajuste de instrucción visual en biomedicina. La fase de generación utiliza una variedad de demostraciones seleccionadas por el médico para guiar el generador GPT-4V. Por el contrario, la fase de selección implica un modelo dedicado que refina las preferencias de los médicos para identificar los datos más relevantes. Este enfoque conduce a mejoras notables en las tareas posteriores, con un aumento significativo del rendimiento en el chat visual abierto y la respuesta visual a preguntas médicas.

Mira el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de 52k+ ML.

Estamos invitando a startups, empresas e instituciones de investigación que estén trabajando en modelos de lenguajes pequeños a participar en este próximo Revista/Informe ‘Small Language Models’ de Marketchpost.com. Esta revista/informe se publicará a finales de octubre o principios de noviembre de 2024. ¡Haga clic aquí para programar una llamada!

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.