MOSEL: Recopilación de datos de voz de código abierto para la formación del modelo Speech Foundation en lenguas de la UE

Si bien los conjuntos de datos de voz existentes están muy sesgados hacia el inglés, muchas lenguas de la UE están desatendidas en términos de datos de voz accesibles y de alta calidad. Esta falta de recursos conduce a modelos de IA que comprenden y procesan mejor el inglés que otros idiomas en tareas como el reconocimiento, la traducción automática y otras tareas de procesamiento del lenguaje natural. La escasez de conjuntos de datos bien organizados, a gran escala y de fuente abierta para los idiomas de la UE genera sesgos lingüísticos, una precisión reducida y un acceso limitado a las tecnologías de inteligencia artificial para los hablantes de idiomas de la UE distintos del inglés. Si bien se están realizando esfuerzos para recopilar datos sobre el habla de lenguas minoritarias, estos tienden a estar fragmentados o ser insuficientes para entrenar modelos básicos a gran escala.

Para abordar este desafío, los investigadores presentaron Mosel, una colección de datos de voz de código abierto que ofrece una solución integral mediante la creación de un conjunto de datos de voz extenso y de código abierto diseñado específicamente para las lenguas de la UE. El conjunto de datos, que consta de más de 950.000 horas de datos de voz en 24 idiomas, es un paso importante hacia la reducción del sesgo lingüístico en los modelos de IA. Mosel proporciona un recurso estructurado y multilingüe que aborda la brecha en los datos disponibles para las lenguas de la UE, apoyando así el desarrollo de modelos lingüísticos más precisos y justos.

El conjunto de datos de Mosel se construye mediante un enfoque multifacético de recopilación, procesamiento y anotación de datos. El proyecto agrega datos de voz de diversas fuentes, incluidas grabaciones de dominio público y conjuntos de datos con licencia, lo que garantiza una amplia representación del lenguaje. Cada conjunto de datos se limpia y procesa rigurosamente para eliminar inconsistencias, lo que lo hace adecuado para aplicaciones de aprendizaje automático. Se agregan anotaciones como transcripciones, metadatos del hablante y etiquetas de idioma para mejorar la usabilidad del conjunto de datos para diversas tareas de IA.

La licencia de código abierto de Mosel garantiza que el conjunto de datos esté disponible gratuitamente para investigadores y desarrolladores, lo que facilita su uso y reutilización a gran escala. Su arquitectura está diseñada para manejar la gestión y el acceso eficientes a los datos, respaldando tareas como la exploración y recuperación de datos. Cuando se entrena con el conjunto de datos de Mosel, se espera que el rendimiento del modelo de IA mejore significativamente, con mayor precisión en el reconocimiento de voz, la traducción y otras tareas de procesamiento del lenguaje natural. Al proporcionar un recurso a gran escala y bien comentado, Mosel ayuda a los modelos a aprender patrones lingüísticos más matizados y reduce el sesgo que normalmente favorece al inglés.

En conclusión, el conjunto de datos de Mosel representa un avance crucial para abordar la escasez de datos de habla de fuente abierta para las lenguas de la UE. Ofrecer un corpus grande, diverso y accesible permite entrenar modelos de IA más precisos y menos sesgados. Este proyecto no solo mejora las capacidades lingüísticas específicas de las lenguas de la UE, sino que también promueve la investigación y la innovación inclusivas en tecnologías de inteligencia artificial en toda Europa.

Mira el GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.