Lanzamiento de Fish Agent v0.1 3B: un innovador modelo de voz a voz capaz de capturar y generar información de audio ambiental con una precisión sin precedentes

Los sistemas actuales de conversión de texto a voz (TTS), como VALL-E y Fastspeech, enfrentan desafíos persistentes relacionados con el procesamiento de características lingüísticas complejas, la gestión de expresiones polifónicas y la producción de habla multilingüe con sonido natural. Estas limitaciones se vuelven particularmente evidentes cuando se trata de palabras polifónicas dependientes del contexto y síntesis interlingüística. Los enfoques TTS tradicionales, que se basan en la conversión de grafema a fonema (G2P), a menudo tienen dificultades para gestionar la complejidad fonética en varios idiomas, lo que genera una calidad inconsistente. Con la creciente demanda de clonación de voz más sofisticada e IA multilingüe, estos desafíos obstaculizan los avances en aplicaciones del mundo real como la IA conversacional y las herramientas de accesibilidad.

El equipo de Fish Audio ha presentado recientemente Fish Agent v0.1 3B, una solución innovadora diseñada para abordar estos desafíos en TTS. Fish Agent se basa en el marco Fish-Speech y aprovecha una novedosa arquitectura dual autorregresiva (Dual-AR) y un vocodificador avanzado llamado Firefly-GAN (FF-GAN). A diferencia de los sistemas TTS tradicionales, Fish Agent v0.1 3B se basa en modelos de lenguaje grandes (LLM) para extraer características lingüísticas directamente del texto, evitando la necesidad de conversión G2P. Este enfoque mejora la eficiencia del proceso de síntesis y las capacidades multilingües, abordando las deficiencias de los modelos TTS actuales y simplificando el procesamiento de texto multilingüe.

Fish Agent v0.1 3B presenta una arquitectura serial rápida-lenta dual autorregresiva (Dual-AR) que consta de transformadores lentos y rápidos. Slow Transformer maneja estructuras lingüísticas globales, mientras que Fast Transformer captura características acústicas detalladas, asegurando una síntesis de voz de alta calidad y sonido natural. Al integrar la cuantificación de vectores escalares finitos agrupados (GFSQ), el modelo logra una utilización y compresión superiores del libro de códigos, lo que lleva a una síntesis eficiente con una latencia mínima. Además, Firefly-GAN (FF-GAN), el codificador de voz del modelo, emplea técnicas de cuantificación vectorial mejoradas para ofrecer resultados de alta fidelidad y estabilidad durante la generación de secuencias. Estas opciones de arquitectura permiten a Fish Agent sobresalir en procesamiento multilingüe, clonación de voz y aplicaciones en tiempo real, lo que lo convierte en un importante paso adelante en el campo TTS.

La importancia de Fish Agent v0.1 3B radica en su capacidad para abordar los cuellos de botella que durante mucho tiempo han causado problemas en los sistemas TTS. Su enfoque no G2P simplifica el proceso de síntesis, permitiendo una mejor gestión de fenómenos lingüísticos complejos y contenidos de idiomas mixtos. Fish-Speech se entrenó en un vasto conjunto de datos que comprende 720.000 horas de datos de audio multilingües, lo que ha permitido que el modelo se generalice de manera efectiva en diferentes idiomas y mantenga la calidad en contextos multilingües. Las evaluaciones experimentales indican que Fish-Speech logra una tasa de error de palabras (WER) del 6,89 %, superando significativamente a los modelos básicos como CosyVoice (22,20 %) y F5-TTS (13,98 %). Además, Fish Agent ofrece una latencia de sólo 150 ms, lo que lo convierte en una opción óptima para aplicaciones en tiempo real. Estas métricas de rendimiento demuestran el potencial de Fish Agent v0.1 3B para avanzar en las tecnologías de voz impulsadas por IA.

Fish Agent v0.1 3B, desarrollado por Fish Audio Team, representa un avance significativo en la tecnología TTS. Al aprovechar una novedosa arquitectura Dual-AR y capacidades avanzadas de vocoder, Fish Agent aborda las limitaciones inherentes de los sistemas TTS tradicionales, particularmente en escenarios multilingües y polifónicos. Su impresionante rendimiento tanto en la extracción de características lingüísticas como en la clonación de voz establece un nuevo punto de referencia para la síntesis de voz impulsada por IA.

Mira el Papel, GitHuby Modelo en abrazando la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️