Pleias presenta Common Corpus: el conjunto de datos multilingüe más grande para el entrenamiento previo de modelos lingüísticos
En los últimos años, el desarrollo de grandes modelos de lenguaje ha avanzado significativamente el procesamiento del lenguaje natural (PLN). Estos modelos, entrenados en extensos conjuntos de datos, pueden generar, comprender y analizar el lenguaje humano con una habilidad notable. Sin embargo, construir tales modelos requiere cantidades sustanciales de datos, y el acceso a conjuntos de datos multilingües de alta calidad sigue siendo un desafío considerable. La escasez de conjuntos de datos de capacitación diversos, a gran escala y disponibles abiertamente ha impedido que los investigadores y desarrolladores creen modelos lingüísticos más inclusivos y sólidos, especialmente para los idiomas menos hablados. Las barreras lingüísticas y la representación limitada han impedido que los sistemas de PNL alcancen su máximo potencial. Abordar estos desafíos requiere un nuevo enfoque que priorice el multilingüismo y el acceso abierto en la formación de modelos lingüísticos.
La liberación del corpus común
Pléyas Recientemente lanzó Common Corpus: el conjunto de datos multilingüe más grande para el entrenamiento previo de modelos lingüísticos. Este extenso conjunto de datos es un hito importante para la comunidad de PNL, ya que ofrece más de dos billones de tokens en docenas de idiomas, procedentes de varios dominios abiertos. Disponible en Hugging Face, Common Corpus es parte de la iniciativa de conjuntos de datos abiertos de AI Alliance, que representa un compromiso con el acceso abierto a los datos para la investigación y la innovación. Common Corpus es una colección que celebra la diversidad y amplitud de los bienes comunes del conocimiento y contiene cinco categorías principales de datos: cultura abierta, gobierno abierto, código abierto, ciencia abierta y web abierta. Desde informes públicos hasta publicaciones científicas, recursos de cultura abierta como Wikipedia e incluso código con licencia permisiva de GitHub, este conjunto de datos proporciona una amplitud de contenido sin precedentes para entrenar modelos multilingües. La inclusión de estos diversos tipos de datos lo hace ideal para el entrenamiento previo de modelos de lenguaje de propósito general que puedan comprender y responder a una comunicación humana variada y matizada.
Detalles técnicos y beneficios
Desde un punto de vista técnico, Common Corpus es un logro extraordinario, ya que sirve como una fuente inagotable de datos multilingües. Incluye datos seleccionados de repositorios de acceso abierto como OpenAlex para artículos científicos, publicaciones gubernamentales, GitHub para software de código abierto y más. Al aprovechar múltiples dominios de datos, Pleias garantiza que el conjunto de datos no sólo sea vasto sino que también represente un amplio espectro de contenido del mundo real. Esta diversidad permite que los modelos lingüísticos entrenados en Common Corpus desarrollen una mejor comprensión contextual y una comprensión más profunda de diferentes géneros y registros del lenguaje. Además, su naturaleza multilingüe aborda la necesidad crítica de una representación equitativa entre los idiomas globales, lo que ayuda a los investigadores de la PNL a trabajar hacia un futuro en el que las tecnologías lingüísticas no estén dominadas únicamente por el inglés o por un puñado de idiomas ampliamente hablados. El conjunto de datos, con su énfasis en el acceso abierto, también ayuda a reducir la disparidad de recursos entre las principales entidades de investigación y los investigadores académicos o independientes, haciendo que la tecnología lingüística avanzada sea más accesible.
Importancia y resultados
El lanzamiento del Common Corpus es un avance fundamental por múltiples razones. El conjunto de datos no solo establece un nuevo punto de referencia en términos de tamaño, sino que también representa una visión de conocimiento compartido, reproducibilidad e inclusión. Permite a investigadores de todo el mundo desarrollar modelos lingüísticos que atiendan a un público más amplio. Al entrenarse en un rico conjunto de datos multilingüe, los modelos futuros pueden ofrecer respuestas más precisas, culturalmente conscientes y matizadas contextualmente. Los experimentos preliminares ya han mostrado resultados prometedores, con modelos entrenados en Common Corpus que muestran un rendimiento mejorado en entornos de disparo cero y de pocos disparos en una variedad de idiomas. Esto sugiere que el alcance de un conjunto de datos de este tipo puede realmente elevar los modelos lingüísticos más allá de los típicos paradigmas de formación monolingües o bilingües, ofreciendo un verdadero paso adelante tanto para el mundo académico como para la industria a la hora de abordar desafíos como la preservación del idioma y garantizar la inclusión cultural de los sistemas de IA.
Conclusión
En conclusión, el Corpus Común de Pleias representa una contribución monumental al futuro del modelado del lenguaje multilingüe. Al proporcionar un conjunto de datos abierto y completo, aborda los desafíos de accesibilidad y diversidad de datos que han limitado el desarrollo de la PNL. Dado que el conjunto de datos está disponible abiertamente en plataformas como Hugging Face, también refleja un compromiso creciente dentro de la comunidad de IA para priorizar la colaboración y la apertura. A medida que avancemos, recursos como Common Corpus serán fundamentales para dar forma a sistemas de IA más democráticos, justos e inclusivos que realmente puedan servir a una audiencia global.
Consulte Corpus común en HuggingFace. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
Por qué los modelos de lenguaje de IA siguen siendo vulnerables: información clave del informe de Kili Technology sobre las vulnerabilidades de los modelos de lenguaje grandes (Lea el informe técnico completo aquí)
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.
🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.