LLM360 Group presenta TxT360: un conjunto de datos de preformación LLM de alta calidad con tokens 15T

En el mundo en constante evolución de los grandes modelos de lenguaje (LLM), los conjuntos de datos previos al entrenamiento forman la columna vertebral de cómo los sistemas de inteligencia artificial comprenden y generan texto similar al humano. LLM360 ha presentado recientemente TxT360un innovador conjunto de datos previo al entrenamiento que comprende 15 billones de tokens. Esta versión combina diversidad, escala y filtrado de datos riguroso para lograr uno de los conjuntos de datos de código abierto más sofisticados hasta la fecha.

Un conjunto de datos construido sobre nuevas bases

TxT360 se diferencia de conjuntos de datos anteriores al incluir fuentes nuevas como FreeLaw (corpus legales), PG-19 (una colección de libros), artículos científicos y Wikipedia. Al combinar estas fuentes, TxT360 presenta un conjunto de datos más rico y matizado, diseñado para reforzar las capacidades de la próxima generación de LLM.

Del rastreo común a los datos limpios

La creación de TxT360 comenzó con Common Crawl, un web scrape disponible públicamente. Sin embargo, el simple uso de datos web sin procesar no alcanzaría los altos estándares que LLM360 buscaba. En cambio, el equipo se embarcó en un riguroso viaje de filtrado para extraer el texto más útil de la enorme colección de archivos WARC (Web ARChive).

Extracción de texto: Se aisló texto limpio y coherente de datos web ruidosos en archivos WARC.
Filtrado de idioma: Se eliminó el contenido que no estaba en inglés para mantener un conjunto de datos coherente.
Filtrado de URL: Se filtraron fuentes redundantes o de bajo valor, incluidos sitios promocionales o spam.
Eliminación de repetición: Grandes esfuerzos se centraron en líneas, párrafos y n-gramas repetidos.
Filtrado de documentos y de nivel de línea: Se utilizaron heurísticas para eliminar documentos y líneas que no cumplían con los estándares de calidad.

En total, se filtró el 97,65% de los datos originales, conservando solo texto significativo y de alta calidad para garantizar modelos de lenguaje sólidos y matizados.

Deduplicación global

Crear un conjunto de datos de alta calidad como TxT360 requería una deduplicación efectiva. LLM360 abordó esto a través de dos enfoques: deduplicación exacta usando un filtro Bloom y deduplicación difusa utilizando un algoritmo MinHash. Estos métodos garantizaron que el conjunto de datos contuviera contenido único, evitando los peligros del aprendizaje repetitivo.

Fuentes de alta calidad

Después del proceso de filtrado, LLM360 agregó corpus cuidadosamente seleccionados y de alta calidad, incluidos artículos científicos, documentos legales, libros clásicos y contenido curado de Wikipedia. Cada una de estas fuentes especializadas pasó por procesos personalizados para preservar la integridad y la calidad de los datos, garantizando que los modelos de lenguaje resultantes puedan manejar una amplia gama de temas.

TxT360: una nueva era para la IA de código abierto

El lanzamiento de TxT360 marca un importante avance en la investigación de IA y PNL. La meticulosa construcción y filtrado del LLM360 demuestran que la calidad y la cantidad pueden coexistir. Con 15 billones de tokens, TxT360 apoya el desarrollo de modelos de lenguaje matizados, capaces e inteligentes.

Además, la transparencia de LLM360 sobre sus procesos establece un nuevo estándar en el campo. Según el grupo de investigación, su próximo lanzamiento de código base ofrecerá información sobre las metodologías que sustentaron este fantástico conjunto de datos.

Mira el Detalles y conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos GenAI (promovida)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos de GenAI: únase a más de 300 ejecutivos de GenAI de Bayer, Microsoft, Flagship Pioneering, para aprender cómo crear una búsqueda de IA rápida y precisa en el almacenamiento de objetos. (Promovido)