Lanzamiento de EuroLLM: un conjunto de modelos de lenguaje multilingüe de peso abierto (EuroLLM-1.7B y EuroLLM-1.7B-Instruct) capaces de comprender y generar texto en todos los idiomas oficiales de la Unión Europea

Los modelos de lenguajes grandes (LLM) han revolucionado el procesamiento del lenguaje natural y la inteligencia artificial, permitiendo una variedad de tareas posteriores. Sin embargo, la mayoría de los modelos avanzados se centran predominantemente en el inglés y en un conjunto limitado de idiomas de altos recursos, lo que deja a muchos idiomas europeos subrepresentados. Esta falta de diversidad lingüística crea barreras importantes para las personas que no hablan inglés, lo que limita su acceso a las capacidades de las tecnologías de inteligencia artificial. Para abordar este problema, un equipo de investigadores de Unbabel, Instituto de Telecomunicações, Instituto Superior Técnico, Universidad Carnegie Mellon, MICS, CentraleSupelec, Universidad Paris-Saclay, Illuin Technology, Universidad de Edimburgo, Equall y Aveni presentan el proyecto EuroLLM que tiene como objetivo Desarrollar modelos lingüísticos multilingües capaces de comprender y generar texto en todos los idiomas oficiales de la Unión Europea, así como en otros idiomas relevantes como el árabe, el chino y el ruso.

El proyecto EuroLLM busca crear LLM que admitan todos los idiomas de la Unión Europea, cerrando así la brecha dejada por los LLM abiertos predominantemente centrados en el inglés. El proyecto ha desarrollado dos modelos iniciales: EuroLLM-1.7B y EuroLLM-1.7B-Instruct, que han mostrado resultados prometedores en pruebas comparativas multilingües y tareas de traducción automática. Este resumen proporciona una descripción general del proyecto EuroLLM, detallando su proceso de recopilación y filtrado de datos, el desarrollo de un tokenizador multilingüe, las configuraciones del modelo y los resultados de la evaluación de sus modelos iniciales.

Recopilación y filtrado de datos

Los modelos EuroLLM se entrenaron en un conjunto de datos diverso recopilado de múltiples fuentes para admitir todos los idiomas de destino. El corpus final se dividió en cuatro categorías: datos web, datos paralelos, datos de código/matemáticas y datos de alta calidad. El proceso de recopilación de datos incluyó deduplicación, identificación del idioma, filtrado de perplejidad y filtrado heurístico para garantizar la calidad. Por ejemplo, los datos web en inglés se obtuvieron del conjunto de datos FineWeb-edu, mientras que otros idiomas de altos recursos utilizaron datos de RedPajama-Data-v2. Además, se recopilaron datos paralelos para mejorar la alineación entre idiomas y mejorar las capacidades de traducción automática del modelo.

Mezcla de datos

El corpus de capacitación fue cuidadosamente seleccionado para equilibrar datos de diferentes idiomas y dominios. Al inglés se le asignó el 50% del total de tokens en la fase de capacitación inicial, y los tokens restantes se distribuyeron entre otros idiomas y datos de código/matemáticas. Durante la fase de recocido, la proporción de datos en inglés se redujo al 32,5% para aumentar las capacidades multilingües del modelo. La combinación de datos también incluyó una cantidad significativa de datos paralelos, que se fijó en un 20 % para cada idioma, según los hallazgos de que mejoraba la alineación entre idiomas sin afectar negativamente a otros dominios.

Tokenizador

El proyecto EuroLLM desarrolló un tokenizador multilingüe con un vocabulario de 128.000 piezas, utilizando el marco SentencePieza. El vocabulario más amplio permitió que el modelo manejara eficientemente múltiples idiomas, lo que redujo la fertilidad (piezas por palabra) en comparación con otros tokenizadores como Mistral y LLaMa-3. Este tokenizador fue esencial para permitir un soporte multilingüe eficaz en una amplia gama de idiomas.

Configuración del modelo

EuroLLM-1.7B utiliza una arquitectura Transformer densa estándar con varias modificaciones para mejorar el rendimiento. El modelo presenta atención de consultas agrupadas (GQA) para una mayor velocidad de inferencia, normalización previa a la capa para mejorar la estabilidad del entrenamiento y la función de activación SwiGLU para mejores resultados posteriores. El modelo fue entrenado previamente en 4 billones de tokens usando 256 GPU Nvidia H100, con un programador de tasa de aprendizaje que incluía una fase de calentamiento y una caída lineal. Se descubrió que el programador trapezoidal supera al programador coseno en pruebas comparativas multilingües y tareas de traducción automática.

Post-entrenamiento y ajuste

Para permitir que EuroLLM-1.7B siga instrucciones en lenguaje natural, el modelo se ajustó en el conjunto de datos EuroBlocks, que incluía datos sintéticos y escritos por humanos que cubrían una amplia gama de idiomas y tareas. El modelo resultante, EuroLLM-1.7B-Instruct, se entrenó mediante ajuste fino supervisado con pérdida de entropía cruzada, lo que le permitió convertirse en un modelo conversacional que sigue instrucciones.

Resultados

Los modelos EuroLLM se evaluaron según puntos de referencia generales y tareas de traducción automática. En inferencia de sentido común (Hellaswag) y preguntas de exámenes de ciencias (Arc Challenge), EuroLLM-1.7B igualó o superó a otros modelos como Gemma-2b y TinyLlama en la mayoría de los idiomas, mostrando sus mayores capacidades multilingües. En traducción automática, EuroLLM-1.7B-Instruct superó a Gemma-2b y fue competitivo con Gemma-7b, a pesar de tener menos parámetros. Estos resultados demuestran la eficacia de los modelos EuroLLM tanto para comprender como para generar texto en varios idiomas.

Conclusión y trabajo futuro

El proyecto EuroLLM ha desarrollado con éxito modelos lingüísticos multilingües que admiten todos los idiomas de la Unión Europea, abordando la necesidad de LLM inclusivos más allá del inglés. El trabajo futuro se centrará en aumentar el número de parámetros del modelo y mejorar aún más la calidad de los datos para mejorar el rendimiento de los LLM multilingües para Europa.

Mira el Papel y Modelo en HF. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.