BLIP3-KALE: un conjunto de datos de código abierto de 218 millones de pares de imagen y texto que transforma los subtítulos de imágenes con descripciones densas basadas en el conocimiento

Los subtítulos de imágenes han experimentado un progreso notable, pero aún quedan desafíos importantes, especialmente en la creación de subtítulos que sean a la vez descriptivos y precisos. Los conjuntos de datos de subtítulos de imágenes tradicionales, como los que se basan exclusivamente en subtítulos sintéticos generados por modelos de visión y lenguaje (VLM) o texto alternativo extraído de la web, a menudo se quedan cortos en cuanto a detalles descriptivos ricos o fundamento fáctico. Esta deficiencia limita la aplicabilidad de estos conjuntos de datos para tareas que requieren una comprensión matizada y la integración del conocimiento del mundo real. Además, estos conjuntos de datos frecuentemente contienen información ruidosa o incompleta, lo que lleva a un menor rendimiento en tareas multimodales. Cerrar la brecha entre las descripciones detalladas y la precisión objetiva ha sido un desafío persistente que los investigadores han tratado de superar.

BLIP3-KALE es un innovador conjunto de datos de código abierto que comprende 218 millones de pares de imágenes y texto, diseñado para abordar las limitaciones de los conjuntos de datos de títulos de imágenes anteriores. Presenta subtítulos densos con conocimiento aumentado que combinan conocimiento factual a escala web con descripciones detalladas de imágenes. KALE aprovecha los puntos fuertes de los subtítulos sintéticos y la información del mundo real del texto alternativo web para generar descripciones de imágenes altamente informativas. Este enfoque de dos etapas enriquece los pies de foto sintéticos con contexto del mundo real, proporcionando un nuevo punto de referencia para crear pies de foto densos y objetivos a escala. El conjunto de datos está disponible públicamente en Hugging Face.

KALE utiliza un proceso de dos etapas para generar subtítulos densos con conocimiento aumentado. En la Etapa 1, el equipo utilizó CogVLM-17B, un potente modelo de visión y lenguaje, para generar títulos de imágenes densos a partir del conjunto de datos Datacomp-1B. Estos subtítulos se enriquecieron aún más al solicitar que el modelo de lenguaje Mistral agregara contexto del mundo real, asegurando que los subtítulos no solo describieran el contenido visual de manera integral sino que también incluyeran información fáctica relevante. Esta etapa produjo un conjunto inicial de 100 millones de subtítulos con conocimiento aumentado.

La etapa 2 implicó ampliar el conjunto de datos. Los subtítulos enriquecidos generados en la Etapa 1 se utilizaron para entrenar un modelo de lenguaje visual destilado similar a la arquitectura LLaVA. Este modelo se entrenó con incrustaciones de parches de imágenes y los subtítulos originales para generar de manera eficiente subtítulos con conocimiento aumentado para 118 millones de imágenes adicionales. El conjunto de datos resultante, KALE, es significativamente mayor que los conjuntos de datos anteriores con conocimiento aumentado, como CapsFusion, y presenta 218 millones de muestras con un promedio de 67,26 palabras por título, casi el triple de la densidad de algunos conjuntos de datos anteriores. El enfoque de dos etapas también aseguró que el conjunto de datos resultante mantuviera un alto nivel de precisión objetiva al tiempo que reducía significativamente el costo computacional del proceso de generación de subtítulos.

La introducción de BLIP3-KALE es un avance significativo para el campo de la IA multimodal. KALE no sólo aborda el problema de los subtítulos ruidosos e incompletos, sino que también establece un nuevo estándar para la densidad y la base objetiva en las descripciones de imágenes. Sus subtítulos son más descriptivos y ricos en conocimientos en comparación con otros conjuntos de datos, lo que convierte a KALE en un recurso invaluable para entrenar modelos de visión y lenguaje que necesitan manejar tareas complejas que requieren una combinación de comprensión visual y conocimiento del mundo.

En términos de resultados, los modelos entrenados en KALE demostraron un rendimiento impresionante en varios puntos de referencia de visión y lenguaje, incluidos TextVQA, VQAv2 y ScienceQA. KALE logró el rendimiento promedio más alto con un 51,96 %, superando a otros conjuntos de datos sintéticos de código abierto como CapsFusion y ReCap-Datacomp. En particular, KALE se destacó en TextVQA (59,92%) y VQAv2 (70,10%), lo que demuestra su eficacia para mejorar el rendimiento de los modelos en tareas visuales de respuesta a preguntas. Estos resultados subrayan la capacidad de KALE para proporcionar datos completos y enriquecidos contextualmente, lo que ayuda a entrenar modelos de visión y lenguaje más capaces y generalizables.

BLIP3-KALE representa un paso adelante en el campo de los subtítulos de imágenes al cerrar la brecha entre los subtítulos sintéticos descriptivos y el texto alternativo fáctico. Su proceso de dos etapas para combinar subtítulos sintéticos con conocimiento del mundo real ha dado como resultado un conjunto de datos de gran escala y rico en detalles. Al proporcionar subtítulos densos con conocimiento aumentado, KALE ha establecido un nuevo punto de referencia para el entrenamiento de sistemas avanzados de IA multimodal, demostrando mejoras notables en una amplia gama de tareas de visión y lenguaje. Sin embargo, persisten desafíos como las alucinaciones ocasionales en imágenes con mucho texto, lo que destaca la necesidad de investigaciones futuras para perfeccionar y ampliar aún más el enfoque KALE. Este conjunto de datos allana el camino para sistemas de IA más confiables y con conocimiento mejorado, capaces de lograr una comprensión visual y contextual más profunda.

Mira el Papel y Conjunto de datos sobre HuggingFace. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias

Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.

🐝🐝 Próximo evento en vivo de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.