LAION AI presenta LAION-DISCO-12M: permite la investigación del aprendizaje automático en modelos básicos con 12 millones de enlaces de audio y metadatos de YouTube

La comunidad de aprendizaje automático enfrenta un desafío importante en las aplicaciones de audio y música: la falta de un conjunto de datos diverso, abierto y de gran escala al que los investigadores puedan acceder libremente para desarrollar modelos básicos. A pesar de los avances en la investigación de la IA basada en imágenes y texto, el dominio del audio está rezagado debido a la ausencia de conjuntos de datos completos comparables a los disponibles para la visión por computadora o el procesamiento del lenguaje natural. La comunidad ha luchado durante mucho tiempo por el acceso a conjuntos de datos diversos y de alta calidad que encapsulan datos de audio contextualmente ricos del mundo real, lo que ha sido un cuello de botella para la innovación en los modelos básicos de música y audio.

Introducción a LAION-DISCO-12M

Para abordar esta brecha, LAION AI ha lanzado LAION-DISCO-12M, una colección de 12 millones de enlaces a muestras de YouTube disponibles públicamente, junto con metadatos diseñados para respaldar la investigación fundamental del aprendizaje automático en audio y música. LAION-DISCO-12M se basa en las secciones de acceso público de YouTube, garantizando que todo el contenido enlazado cumple con los estándares de acceso abierto. Al proporcionar metadatos, como marcas de tiempo, descripciones y otros detalles semánticos, los investigadores pueden explorar y contextualizar de manera efectiva el rico contenido de audio disponible. El objetivo es cerrar la brecha entre la escala de datos disponibles para entrenar sistemas de IA en visión y texto y los conjuntos de datos relativamente limitados disponibles para audio y música, permitiendo un avance significativo en el desarrollo de modelos básicos capaces en estos dominios.

Detalles técnicos y beneficios

El conjunto de datos LAION-DISCO-12M se destaca por su inmensa escala, metadatos meticulosos y el cuidadoso proceso de curación que garantiza la diversidad y la calidad del contenido. Con más de 12 millones de muestras de audio, el conjunto de datos proporciona una amplia cobertura de diferentes géneros musicales, paisajes sonoros, palabras habladas y diversos sonidos ambientales. El conjunto de datos es particularmente valioso para quienes investigan modelos de transformadores a gran escala para la generación de música, clasificación de audio o traducción genérica de audio a texto. Además, cada muestra va acompañada de metadatos detallados, que incluyen título, descripción, palabras clave e información de marca de tiempo, que pueden ser fundamentales en el entrenamiento de modelos para tareas multimodales, como el aprendizaje audiovisual o la clasificación de audio alineada con señales contextuales.

Una ventaja clave de LAION-DISCO-12M es su escala y diversidad. Los investigadores a menudo enfrentan limitaciones debido al tamaño o la falta de datos contextuales en los conjuntos de datos de audio existentes, lo que puede obstaculizar el rendimiento del modelo en escenarios del mundo real. LAION-DISCO-12M aborda estos desafíos proporcionando un conjunto de datos más grande con metadatos enriquecidos, mejorando la capacidad de los modelos para aprender relaciones complejas en datos de audio. La alineación de los metadatos con cada clip de audio proporciona información contextual valiosa, lo que facilita un aprendizaje más eficaz. Por ejemplo, los modelos pueden utilizar marcas de tiempo para localizar eventos de sonido dentro de muestras más largas, lo que permite nuevas posibilidades en la detección de eventos y la comprensión del audio. LAION-DISCO-12M admite el entrenamiento y el ajuste de modelos avanzados, como MusicLM o Wav2Vec, en un conjunto de datos que ofrece amplitud y profundidad.

Importancia y resultados iniciales

La disponibilidad de este conjunto de datos representa un avance significativo en la investigación de modelos básicos para audio. Si bien los conjuntos de datos existentes, como AudioSet de Google, han sido valiosos, LAION-DISCO-12M ofrece un recurso importante para la investigación de IA abierta e impulsada por la comunidad. Proporciona a investigadores de todo el mundo acceso a un conjunto de datos completo, sin derechos de licencia ni acceso restringido. Las pruebas iniciales utilizando subconjuntos de LAION-DISCO-12M han mostrado mejoras prometedoras en la generalización de los modelos de clasificación musical, y los resultados preliminares indican un aumento de precisión de hasta el 15 % en comparación con los modelos entrenados en conjuntos de datos más pequeños. Este conjunto de datos también abre posibilidades para la investigación sobre la generación de música multimodal y asistentes de voz más conscientes del contexto capaces de comprender entornos de audio complejos.

Conclusión

En conclusión, LAION-DISCO-12M representa un importante paso adelante para la comunidad de aprendizaje automático, en particular para quienes trabajan en la investigación del audio y la música. Al proporcionar una colección grande y diversa de muestras de audio de YouTube de acceso público, LAION AI ha hecho que la investigación fundamental en audio sea más accesible. Este conjunto de datos tiene como objetivo respaldar los avances en los modelos de música generativa, la comprensión de audio contextual y la investigación de IA multimodal, similar al impacto de grandes conjuntos de datos de texto en el procesamiento del lenguaje natural. LAION-DISCO-12M sirve como un recurso valioso para ampliar el acceso a la investigación de audio y fomentar la innovación en tecnologías de audio y música impulsadas por IA.

Mira el Detalles y conjunto de datos sobre abrazar la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(CONFERENCIA VIRTUAL DE IA GRATUITA) SmallCon: Conferencia virtual gratuita sobre GenAI con Meta, Mistral, Salesforce, Harvey AI y más. Únase a nosotros el 11 de diciembre en este evento virtual gratuito para aprender lo que se necesita para construir a lo grande con modelos pequeños de pioneros de la IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face y más.

Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.

🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.