Codec de audio neuronal con separación de fuentes (SD-Codec): un nuevo enfoque de inteligencia artificial que combina la codificación de audio y la separación de fuentes

Los códecs de audio neuronales han cambiado por completo la forma en que se comprime y se maneja el audio, al convertir señales de audio continuas en tokens discretos. Esta técnica utiliza modelos generativos entrenados en tokens discretos para producir audio complejo manteniendo al mismo tiempo la excelente calidad del audio. Estos códecs neuronales han mejorado significativamente la compresión de audio, lo que permite almacenar y transferir datos de audio de manera más efectiva sin comprometer la calidad del sonido.

Sin embargo, muchos de los modelos de códecs de audio neuronales que se utilizan actualmente no fueron diseñados para distinguir entre dominios de sonido distintos, sino que fueron entrenados con conjuntos de datos de audio de gran tamaño y variados. Por ejemplo, los armónicos y la estructura del lenguaje hablado son muy diferentes a los de la música o el ruido ambiental. La incapacidad de distinguir entre diferentes dominios de audio dificulta la modelización eficaz de los datos y la gestión de la producción de sonido. A estos modelos les resulta difícil gestionar las cualidades distintivas de los distintos formatos de audio, lo que puede dar como resultado un rendimiento inferior al ideal, en particular en aplicaciones que necesitan un control exacto de la producción de sonido.

Para superar estos problemas, un equipo de investigadores ha presentado el códec de audio neuronal desenredado de la fuente (SD-Codec), una técnica única que combina la separación de fuentes y la codificación de audio. El objetivo de SD-Codec es mejorar los códecs neuronales actuales mediante la identificación y clasificación específicas de las señales de audio en dominios distintos. A diferencia de otras técnicas de compresión del espacio latente, SD-Codec asigna representaciones discretas, o libros de códigos distintos, a varias fuentes de audio, incluida la música, los efectos de sonido y la voz. Debido a esta división, el modelo es más capaz de reconocer y mantener las cualidades distintivas de cada forma de audio.

SD-Codec mejora la interpretabilidad del espacio latente en los códecs de audio neuronales al aprender simultáneamente a separar y resintetizar el audio. Además de ayudar a preservar la resíntesis de audio de alta calidad, brinda un control adicional sobre el proceso de creación de audio al facilitar la distinción entre varias fuentes. Debido a que SD-Codec puede separar fuentes dentro del espacio latente, puede manipular la salida de audio con mayor precisión, lo que resulta muy útil para aplicaciones que necesitan generar o editar audio detallado.

Según los resultados experimentales, SD-Codec desenreda con éxito varias fuentes de audio y se desempeña a un nivel competitivo en términos de calidad de resíntesis de audio. Esta capacidad de separación se traduce en una mejor interpretabilidad, lo que hace que sea más sencillo comprender y manipular el audio generado.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

Se ha propuesto SD-Codec, un códec de audio neuronal que extrae distintas fuentes de audio, como voz, música y efectos de sonido de los clips de audio de entrada, además de reconstruir audio de alta calidad. Esta doble característica aumenta la adaptabilidad y utilidad del códec para una variedad de aplicaciones de procesamiento de audio.

Se ha estudiado cómo el SD-Codec podría hacer uso de la cuantificación vectorial residual compartida (RVQ). Los resultados han demostrado que el rendimiento no cambia si se utiliza o no un libro de códigos común. Esto resalta el procesamiento jerárquico de la entrada de audio dentro del códec e implica que los niveles superficiales de RVQ se encargan de almacenar información semántica, mientras que las capas más profundas se concentran en capturar características acústicas locales.

Se ha utilizado un conjunto de datos a gran escala para entrenar el SD-Codec y los resultados han demostrado que funciona bien en la separación de fuentes y la reconstrucción de audio. Este entrenamiento exhaustivo garantiza que el modelo sea confiable y funcional en diversas situaciones acústicas.

En conclusión, SD-Codec es un avance importante en los códecs de audio neuronal, que proporciona un método más avanzado y manejable de producción y compresión de audio.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)