Normalización del vecino más cercano: un enfoque sublineal para mejorar la recuperación contrastiva

Los modelos contrastantes de imágenes y texto enfrentan desafíos importantes para optimizar la precisión de la recuperación a pesar de su papel crucial en los sistemas de recuperación de texto a imagen e imagen a texto a gran escala. Si bien estos modelos aprenden eficazmente incrustaciones conjuntas a través de funciones de pérdida contrastiva para alinear pares texto-imagen coincidentes y separar pares no coincidentes, optimizan principalmente objetivos de preentrenamiento como InfoNCE en lugar del rendimiento de recuperación posterior. Esta limitación fundamental conduce a incorporaciones subóptimas para tareas prácticas de recuperación. Las metodologías actuales luchan con problemas como el problema de la concentración, donde ciertos candidatos de recuperación dominan como vecinos más cercanos para múltiples consultas en espacios de incrustación de alta dimensión, lo que resulta en coincidencias incorrectas. Además, las soluciones existentes a menudo requieren recursos computacionales sustanciales, capacitación adicional en todos los dominios o integración de bases de datos externas, lo que las hace poco prácticas para entornos informáticos limitados o modelos de integración de caja negra.

Investigadores del Instituto Tecnológico de Massachusetts y la Universidad de Stanford presentes Normalización del vecino más cercano (NNN)que surge como un enfoque sólido sin entrenamiento para mejorar el rendimiento de la recuperación contrastiva. Este método innovador aborda las limitaciones de los enfoques anteriores al introducir una solución computacionalmente eficiente con una complejidad temporal sublineal en relación con el tamaño de la base de datos de referencia. En esencia, NNN implementa un mecanismo de corrección que apunta a las incorporaciones que reciben puntuaciones de recuperación desproporcionadas mediante la normalización de las puntuaciones de los candidatos utilizando solo las k incorporaciones de consulta más cercanas de un conjunto de datos de referencia. Este enfoque específico no solo supera el rendimiento de métodos existentes como QBNorm y DBNorm, sino que también mantiene una sobrecarga de inferencia mínima. El método demuestra una notable versatilidad al mejorar constantemente la precisión de la recuperación en varios modelos y conjuntos de datos y, al mismo tiempo, reducir los sesgos dañinos, como el sesgo de género, lo que lo convierte en un avance significativo en los sistemas de recuperación contrastantes.

El método de normalización del vecino más cercano introduce un enfoque sofisticado para abordar el problema de la concentración en sistemas contrastantes de recuperación de texto a imagen. El método calcula una puntuación de coincidencia s(q, r) entre una consulta q y el candidato de recuperación de la base de datos r utilizando la similitud coseno entre las incrustaciones de imagen y texto. Para contrarrestar el sesgo hacia imágenes centrales que muestran una alta similitud de coseno con múltiples títulos de consulta, The NNN El método implementa un mecanismo de corrección de sesgo. Este sesgo b(r) para cada candidato de recuperación se calcula como α multiplicado por la media de las k puntuaciones de similitud más altas de un conjunto de datos de consulta de referencia D. La puntuación final de recuperación sin sesgo se obtiene restando este sesgo estimado de la puntuación original: sD(q , r) = s(q, r) – b(r). La eficiencia del método surge de su capacidad para calcular puntuaciones de sesgo fuera de línea y almacenarlas en caché mientras se mantiene la complejidad del tiempo sublineal durante las operaciones de recuperación mediante técnicas de recuperación de vectores.

La evaluación de NNN demuestra impresionantes mejoras de rendimiento en múltiples modelos multimodales contrastantes, incluidos CLIP, BLIP, ALBEF, SigLIP y BEiT. El método muestra ganancias consistentes en tareas de recuperación de texto a imagen y de imagen a texto, superando los enfoques existentes y al mismo tiempo requiere significativamente menos recursos computacionales. Además, mientras que la optimización de hiperparámetros de DBNorm exige 100 veces más computación, NNN logra resultados superiores con una sobrecarga computacional mínima. La solidez del método es evidente a través de su desempeño consistente con consultas tanto dentro como fuera de la distribución, manteniendo la efectividad incluso con diferentes tamaños de bases de datos de referencia. Al abordar el sesgo de género, NNN redujo significativamente el sesgo en la recuperación de imágenes relacionadas con la ocupación de 0,348 a 0,072 (n=6) y de 0,270 a 0,078 (n=10), al mismo tiempo que mejoró la precisión promedio del 56,5% al ​​69,6% para Retrieval@1. y del 49,6% al 56,5% para Retrieval@5, lo que demuestra su capacidad para mejorar tanto la equidad como la precisión.

Normalización del vecino más cercano representa un avance significativo en los sistemas contrastantes de recuperación multimodal. El enfoque innovador del método de utilizar k vecinos más cercanos para las puntuaciones de corrección de sesgo demuestra una eficiencia superior al tiempo que mantiene una precisión mejorada en comparación con los métodos de inferencia existentes en el momento de la prueba. NNN La versatilidad es evidente en su aplicación exitosa con varios conjuntos de datos de referencia y su efectividad para reducir el sesgo de género, lo que lo convierte en una solución práctica y poderosa para mejorar los sistemas de recuperación multimodal.


Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leer más
Back to top button