Rev lanza modelos de IA de Reverb: modelo de transcripción y diarización de voz de peso abierto que supera a los modelos SoTA actuales

Las tecnologías de reconocimiento automático de voz (ASR) y diarización se han convertido en herramientas esenciales para transformar la forma en que las máquinas interpretan el habla humana. Estas innovaciones permiten una transcripción, segmentación del habla e identificación del hablante precisas en diversas aplicaciones, como transcripciones de medios, documentación legal y automatización del servicio al cliente. Al dividir los datos de audio en texto comprensible y atribuir la voz a diferentes hablantes, estos sistemas han allanado el camino para aplicaciones impulsadas por IA más inteligentes e interactivas.

Uno de los principales desafíos en el campo de la ASR y la diarización ha sido lograr una alta precisión en la transcripción y la identificación del hablante. Los modelos existentes a menudo necesitan ayuda en el reconocimiento de voz de formato largo, que puede involucrar a diferentes hablantes con distintos acentos y patrones de habla. Esta complejidad da como resultado mayores tasas de error y mayores costos computacionales, lo que dificulta que los sistemas ASR funcionen bien en entornos del mundo real. La registro de los hablantes encuentra obstáculos importantes a la hora de distinguir con precisión a los hablantes en segmentos de habla superpuestos, lo que genera atribuciones erróneas y reduce la eficacia general de estos sistemas.

Los métodos tradicionales para ASR, como Whisper large-v3 de OpenAI y Canary-1B de NVIDIA, han establecido altos estándares en términos de precisión, pero a menudo tienen limitaciones. Estos modelos se basan en grandes conjuntos de parámetros y requieren una potencia informática significativa, lo que los hace menos viables para aplicaciones escalables. De manera similar, los modelos de diarización anteriores, como PyAnnote3.0, proporcionan una base para la segmentación de hablantes, pero necesitan más mejoras para integrarse perfectamente con los sistemas ASR. Si bien estos modelos han superado los límites de la tecnología del habla, dejan margen para mejorar tanto el rendimiento como la eficiencia de los recursos.

El equipo de investigación de Rev, una empresa líder en tecnología del habla, presentó los modelos Reverb ASR y Reverb Diarization v1 y v2, estableciendo nuevos estándares de precisión y eficiencia computacional en el dominio. Reverb ASR es un modelo en inglés entrenado con 200.000 horas de datos de voz transcritos por humanos, logrando la tasa de error de palabras (WER) de última generación. Los modelos de diarización, construidos sobre el marco PyAnnote, están ajustados con 26.000 horas de datos etiquetados. Estos modelos no sólo destacan en la separación del habla, sino que también abordan la cuestión de la atribución del hablante en entornos auditivos complejos.

La tecnología detrás de Reverb ASR combina clasificación de tiempo convolucional (CTC) y arquitecturas basadas en la atención. El modelo ASR comprende 18 capas de conformadores y seis capas de transformadores, con un total de 600 millones de parámetros. La arquitectura admite múltiples modos de decodificación, como búsqueda de haz de prefijo CTC, recuperación de atención y decodificación conjunta de CTC/atención, lo que proporciona opciones de implementación flexibles. El modelo Reverb Diarization v1, construido sobre la arquitectura PyAnnote3.0, incorpora 2 capas LSTM con 2,2 millones de parámetros. Mientras tanto, Reverb Diarization v2 reemplaza las funciones de SincNet con WavLM, mejorando la precisión de la diarización. Este cambio tecnológico ha permitido al equipo de investigación de Rev ofrecer un sistema de atribución y segmentación de hablantes más sólido.

En cuanto al rendimiento, los modelos Reverb ASR y Diarization superan a las soluciones tradicionales en varios conjuntos de datos de referencia. En el conjunto de datos de Earnings21, Reverb ASR logró un WER de 9,68, significativamente más bajo que el 14,26 de Whisper large-v3 y el 14,40 de Canary-1B. De manera similar, en el conjunto de datos Earnings22, Reverb ASR registró un WER de 13,68 en comparación con el 19,05 de Whisper y el 19,01 de Canary-1B. El conjunto de datos Rev16 mostró Reverb ASR con un WER de 10,30, mientras que Whisper y Canary informaron 10,86 y 13,82, respectivamente. Esta marcada mejora en el rendimiento resalta la eficiencia de Reverb ASR en el manejo de discursos de larga duración. Para la diarioización, Reverb Diarization v1 proporcionó una mejora del 16,5 % en la tasa de error de diario de palabras (WDER) con respecto a PyAnnote3.0, y la v2 logró una mejora relativa del 22,25 %, lo que la convierte en una opción superior para la integración de ASR.

Los nuevos modelos de Rev no solo abordan los desafíos que enfrentan los sistemas tradicionales sino que también brindan una solución lista para producción para diversas industrias. El proceso optimizado para Reverb ASR incluye una búsqueda de haz de transductor ponderado de estado finito (WFST), un modelo de lenguaje unigrama y una nueva puntuación de atención, lo que lo hace altamente adaptable a diferentes necesidades de transcripción. Además, el modelo ofrece transcripción palabra por palabra personalizable, lo que permite a los usuarios elegir el nivel de palabra por palabra, lo que lo hace adecuado para escenarios que van desde transcripciones limpias hasta edición de audio. Los modelos de diarización se integran perfectamente con los sistemas ASR, asignando palabras a los hablantes con gran precisión incluso en entornos ruidosos.

Rev se ha establecido como líder en la industria de la tecnología del habla con estos avances. Su estrategia de peso abierto permite a la comunidad acceder a estos poderosos modelos a través de plataformas como Hugging Face, fomentando una mayor innovación y colaboración. Al establecer nuevos puntos de referencia en ASR y registro de los hablantes, el equipo de investigación de Rev ha proporcionado a la industria una solución más confiable, escalable y adaptable para la comprensión automatizada del habla y la atribución de los hablantes. El perfeccionamiento continuo de estos modelos significa el compromiso de Rev de ampliar los límites de la tecnología del habla y establecer nuevos estándares para avances futuros.

Mira el Detalles, Modelos en Hugging Face y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida experiencia en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.