Seed-Music: un marco de trabajo de inteligencia artificial integral para la generación y edición mejorada de música con expresión artística controlada y entradas multimodales

La generación de música ha evolucionado significativamente, integrando pistas vocales e instrumentales en composiciones cohesivas. Trabajos pioneros como Jukebox demostraron la generación de música vocal de principio a fin, combinando letras de entrada, estilos de artistas y géneros. Las aplicaciones impulsadas por IA ahora permiten la creación a pedido utilizando indicaciones en lenguaje natural, lo que hace que la generación de música sea más accesible. El campo abarca la generación del dominio simbólico y del dominio de audio, cada uno con metodologías distintas. Los enfoques simbólicos, si bien son beneficiosos para la generación de melodías, carecen de información alineada con fonemas y notas, crucial para la música vocal y la reproducción de audio.

La investigación ha explorado las fichas de partituras principales, inspiradas en los músicos de jazz, para mejorar la interpretabilidad en la generación de música. Los estudios específicos de tareas han investigado la dirección de la generación de audio musical a través de condiciones musicalmente interpretables, como la armonía, la dinámica y el ritmo. Estos avances han abordado tanto los desafíos técnicos como las necesidades artísticas, sentando una base sólida para marcos como Seed-Music. La progresión de la generación de pistas independientes a los sistemas integrados marca un cambio significativo en la creación y la experiencia musical, allanando el camino para herramientas de generación musical más sofisticadas y fáciles de usar.

Seed-Music surge como un marco integral para la generación de música de alta calidad, que aborda tanto los desafíos creativos como los técnicos. Combina la generación controlada y la edición de posproducción, atendiendo a las diversas necesidades de los usuarios. El marco reconoce las complejidades de la anotación musical, las influencias culturales en la estética y los requisitos técnicos para la generación simultánea de múltiples componentes musicales. Al enfatizar el diseño centrado en el usuario, Seed-Music se adapta a distintos niveles de experiencia y necesidades específicas. La estructura modular, que comprende módulos de aprendizaje de representación, generación y renderización, brinda flexibilidad para manejar diferentes tareas de generación y edición de música, adaptándose a diversas entradas y preferencias de los usuarios.

La metodología Seed-Music emplea tres representaciones intermedias básicas: tokens de audio, representaciones simbólicas y latentes de vocoder. Los tokens de audio codifican de manera eficiente la información semántica y acústica, pero carecen de interpretabilidad. Las representaciones simbólicas permiten modificaciones directas del usuario, pero dependen en gran medida del Renderer para los matices acústicos. Las latentes de vocoder capturan información detallada, pero pueden codificar detalles acústicos excesivos. El marco incorpora modelos de recompensa basados en atributos musicales y comentarios de los usuarios, lo que mejora la alineación de la salida con las preferencias del usuario. Este enfoque aborda las complejidades de las señales musicales y los desafíos de evaluación.

El sistema permite la generación controlada de música a través de entradas multimodales, que incluyen descripciones de estilos, referencias de audio, partituras musicales e indicaciones de voz. También cuenta con herramientas de edición de posproducción para modificar letras y melodías vocales directamente en el audio generado. Estos componentes crean colectivamente un sistema de generación de música versátil que proporciona una salida de alta calidad con un control detallado. El sofisticado enfoque de la metodología satisface diversas necesidades de los usuarios, desde principiantes hasta profesionales, al combinar varias representaciones, modelos y herramientas de interacción para facilitar la creación y edición de música dinámica y fácil de usar.

Los resultados del marco Seed-Music demuestran su eficacia para generar música de alta calidad alineada con las especificaciones del usuario. La estructura unificada, que comprende módulos de aprendizaje de representación, generación y renderización, facilita la generación controlada de música y la edición de posproducción. Si bien las métricas de rendimiento tradicionales resultan inadecuadas para evaluar la musicalidad, el éxito del sistema es evidente a través de evaluaciones subjetivas y ejemplos de audio de demostración. La capacidad del marco para editar y manipular música grabada, preservando la semántica, ofrece ventajas significativas para los profesionales de la industria musical. A pesar de mostrarse prometedor, se necesita una mayor exploración de los métodos de aprendizaje de refuerzo para mejorar la alineación y la musicalidad de los resultados. Los desarrollos futuros, incluidos los flujos de trabajo de generación y edición basados en stems, tienen potencial para hacer avanzar los procesos creativos en la producción musical.

En conclusión, Seed-Music surge como un marco integral para la generación de música, que utiliza tres representaciones intermedias para respaldar diversos flujos de trabajo. El sistema genera música vocal de alta calidad a partir de varias entradas, incluidas descripciones de lenguaje, referencias de audio y partituras musicales. Al reducir las barreras a la creación artística, empodera tanto a los principiantes como a los profesionales, integrando canales de texto a música con conversión de voz cantada de disparo cero. El marco imagina nuevos medios artísticos que responden a múltiples señales de condicionamiento. Los tokens de partitura principal apuntan a convertirse en un estándar para los modelos de lenguaje musical, facilitando la integración profesional. Los desarrollos futuros en flujos de trabajo de generación y edición basados en stems prometen mejorar los procesos de producción musical, revolucionando potencialmente las prácticas creativas en la industria musical.

Echa un vistazo a la Papel y ProyectoTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Shoaib Nazir es pasante de consultoría en MarktechPost y ha completado su doble titulación de máster en tecnología en el Instituto Indio de Tecnología (IIT) de Kharagpur. Siendo un apasionado de la ciencia de datos, le interesan especialmente las diversas aplicaciones de la inteligencia artificial en diversos ámbitos. Shoaib está impulsado por el deseo de explorar los últimos avances tecnológicos y sus implicaciones prácticas en la vida cotidiana. Su entusiasmo por la innovación y la resolución de problemas del mundo real alimenta su continuo aprendizaje y contribución al campo de la IA.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)