Investigadores de la Universidad de Nueva York presentan Symile: un marco general para el aprendizaje contrastivo multimodal
El aprendizaje contrastivo se ha vuelto esencial para construir representaciones a partir de datos emparejados, como combinaciones de imagen y texto en IA. Ha demostrado una gran utilidad a la hora de transferir conocimientos aprendidos a tareas posteriores, especialmente en dominios con interdependencias de datos complejas, como la robótica y la atención sanitaria. En robótica, por ejemplo, los agentes recopilan datos de sensores visuales, táctiles y propioceptivos, mientras que los profesionales de la salud integran imágenes médicas, bioseñales y datos genómicos. Cada dominio exige un modelo capaz de procesar simultáneamente múltiples tipos de datos. Sin embargo, los modelos existentes en el aprendizaje contrastivo se limitan predominantemente a dos modalidades, lo que restringe la calidad y utilidad de la representación en escenarios complejos y multimodales.
Un desafío importante radica en las limitaciones de los modelos de dos modalidades, como CLIP, que están estructurados para capturar solo dependencias de datos por pares. Esta configuración impide que el modelo comprenda dependencias condicionales conjuntas en más de dos tipos de datos, lo que genera una brecha de información significativa. Al analizar múltiples modalidades (como imágenes, audio y texto), las dependencias entre cada par no reflejan toda la complejidad; por ejemplo, si existen tres tipos de datos, un modelo por pares podría comprender la conexión entre imagen-texto y texto-audio pero pasar por alto las relaciones más amplias, particularmente cuando un tipo de datos depende condicionalmente de otro. Esta incapacidad para representar relaciones intermodales más allá de pares de tipos de datos sigue siendo una barrera para las aplicaciones multimedia y de atención médica.
Históricamente, los investigadores han extendido los modelos contrastivos por pares a múltiples modalidades aplicando objetivos como CLIP a pares de modalidades. Si bien este enfoque de dos a la vez introduce un grado de compatibilidad multimodal, está limitado por la necesidad de arquitecturas especializadas o pasos de capacitación adicionales para cada par de modalidades, lo que complica la generalización. Los modelos alternativos que manejan múltiples tipos de datos requieren estructuras complejas y ajustes complejos, lo que en última instancia restringe su aplicabilidad. Si bien son efectivos en aplicaciones limitadas, estos métodos exigen intervención manual para definir pares de modalidades adecuados, dejando espacio para enfoques que capturen todas las interacciones de modalidades dentro de una única función objetivo.
Investigadores de la Universidad de Nueva York presentan Symile, un innovador modelo de aprendizaje contrastivo que supera estas limitaciones al capturar dependencias de orden superior en múltiples modalidades de datos sin ajustes complejos. A diferencia de los métodos por pares, Symile aprovecha un objetivo de correlación total que se adapta a cualquier número de modalidades, creando una representación unificada sin depender de cambios arquitectónicos complejos. Los investigadores estructuraron Symile para manejar de manera flexible diversas modalidades, apuntando a una generalización de información mutua que estima las dependencias entre tipos de datos. Al derivar un límite inferior de la correlación total, el objetivo del modelo de Symile captura representaciones específicas de la modalidad que retienen información conjunta crítica, lo que le permite funcionar bien en escenarios donde los datos de varias modalidades están incompletos o faltan.
La metodología de Symile implica un objetivo contrastivo novedoso que utiliza el producto interno multilineal (MIP), una función de puntuación que generaliza los productos escalares para dar cuenta de tres o más vectores, para medir la similitud entre múltiples tipos de datos. Symile maximiza las puntuaciones de tuplas positivas y minimiza las negativas dentro de un lote a través de esta función. Luego, el modelo promedia estas pérdidas en todas las modalidades. Esto permite a Symile capturar más que solo información por pares, agregando una tercera capa de “información condicional” entre los tipos de datos. Los investigadores optimizaron el modelo utilizando un nuevo enfoque de muestreo negativo, creando muestras negativas más diversas dentro de cada lote, simplificando los cálculos para conjuntos de datos más amplios.
El desempeño de Symile en tareas de datos multimodales resalta su efectividad sobre los modelos tradicionales por pares. Las pruebas involucraron varios experimentos, incluida la clasificación intermodal y la recuperación de diversos conjuntos de datos. En un experimento que utilizó un conjunto de datos sintéticos con variables controladas, Symile logró una precisión casi perfecta de 1,00 al interpretar datos con información condicional mutua en tres modalidades. Al mismo tiempo, CLIP alcanzó sólo 0,50, que es efectivamente la tasa de probabilidad aleatoria. Experimentos adicionales en un gran conjunto de datos multilingüe, Symile-M3, demostraron una precisión de Symile del 93,9 % en la predicción del contenido de imágenes basado en texto y audio en dos idiomas, mientras que CLIP logró solo el 47,3 %. Esta brecha se amplía a medida que aumenta la complejidad del conjunto de datos; Symile mantuvo una precisión del 88,2% al utilizar diez idiomas, mientras que la de CLIP cayó al 9,4%. En un conjunto de datos médicos que incorpora radiografías de tórax, electrocardiogramas y datos de laboratorio, Symile logró una precisión del 43,5 % en la predicción de coincidencias correctas, superando el 38,7 % de CLIP.
A través de su capacidad para capturar información conjunta entre modalidades, el enfoque de Symile le permite funcionar bien incluso cuando faltan algunos tipos de datos. Por ejemplo, en una variante de Symile-M3 donde cada modalidad se omitió aleatoriamente con una probabilidad del 50 %, Symile mantuvo una alta precisión del 90,6 %, superando significativamente a CLIP bajo las mismas restricciones. El modelo Symile manejó los datos faltantes adaptando el objetivo para mantener la precisión a través de muestras sin soporte, una característica crítica para aplicaciones del mundo real como la atención médica donde es posible que no siempre todos los datos estén disponibles.
Esta investigación aborda una brecha importante en el aprendizaje contrastivo al permitir que un modelo procese múltiples tipos de datos simultáneamente con un objetivo sencillo e independiente de la arquitectura. El enfoque de correlación total de Symile, al capturar más que información por pares, representa un avance sustancial sobre los modelos de dos modalidades y ofrece un rendimiento superior, especialmente en dominios complejos y con gran densidad de datos, como la atención médica y las tareas multilingües. Al mejorar la calidad y la adaptabilidad de la representación, Symile está bien posicionada como una herramienta valiosa para la integración multimodal, ofreciendo una solución flexible que se alinea con la naturaleza compleja y de alta dimensión de los datos del mundo real.
Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Próximo evento en vivo de LinkedIn) ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.
Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️