ByteDance presentó la arquitectura del modelo de lenguaje grande jerárquico (HLLM) para transformar las recomendaciones secuenciales, superar los desafíos del inicio en frío y mejorar la escalabilidad con un rendimiento de última generación

Los sistemas de recomendación se han convertido en la base de los servicios personalizados en las plataformas de comercio electrónico, streaming y redes sociales. Estos sistemas tienen como objetivo predecir las preferencias de los usuarios mediante el análisis de interacciones históricas, lo que permite a las plataformas sugerir artículos o contenido relevantes. La precisión y la eficacia de estos sistemas dependen en gran medida de lo bien que se modelen las características de los usuarios y de los artículos. Con el paso de los años, el desarrollo de algoritmos para capturar los intereses dinámicos y cambiantes de los usuarios se ha vuelto cada vez más complejo, especialmente en grandes conjuntos de datos con comportamientos de usuario variables. La integración de modelos más avanzados es esencial para mejorar la precisión de las recomendaciones y escalar su aplicación en escenarios del mundo real.

Un problema persistente en los sistemas de recomendación es el manejo de nuevos usuarios y elementos, comúnmente conocidos como escenarios de inicio en frío. Estos ocurren cuando el sistema necesita más datos para realizar predicciones precisas, lo que lleva a recomendaciones subóptimas. Los métodos actuales se basan en modelos basados ​​en ID, que representan a los usuarios y elementos mediante identificadores únicos convertidos en vectores de incrustación. Si bien esta técnica funciona bien en entornos ricos en datos, falla en condiciones de inicio en frío debido a su incapacidad para capturar características complejas y de alta dimensión que representen mejor los intereses de los usuarios y los atributos de los elementos. A medida que los conjuntos de datos crecen, los modelos existentes luchan por mantener la escalabilidad y la eficiencia, especialmente cuando se requieren predicciones en tiempo real.

Los métodos tradicionales en este campo, como las incrustaciones basadas en ID, utilizan técnicas de codificación simples para convertir la información del usuario y del elemento en vectores que el sistema puede procesar. Los modelos como DeepFM y SASRec utilizan estas incrustaciones para capturar el comportamiento secuencial del usuario, pero las arquitecturas relativamente superficiales limitan su eficacia. Estos métodos necesitan ayuda para capturar las características ricas y detalladas de los elementos y los usuarios, lo que a menudo conduce a un rendimiento deficiente cuando se aplican a conjuntos de datos complejos y de gran escala. Los modelos basados ​​en incrustaciones dependen de muchos parámetros, lo que los hace costosos desde el punto de vista computacional y menos eficientes, especialmente cuando se ajustan para tareas específicas como las recomendaciones.

Los investigadores de ByteDance han presentado un modelo innovador conocido como Modelo jerárquico de lenguaje amplio (HLLM) para mejorar la precisión y la eficiencia de las recomendaciones. La arquitectura HLLM está diseñada para mejorar los sistemas de recomendación secuencial mediante el uso de las potentes capacidades de los modelos de lenguaje grandes (LLM). A diferencia de los sistemas tradicionales basados ​​en ID, HLLM se centra en extraer características de contenido enriquecido de las descripciones de los elementos y utilizarlas para modelar el comportamiento del usuario. Este enfoque de dos niveles está diseñado para aprovechar los LLM entrenados previamente, como los que tienen hasta 7 mil millones de parámetros, para mejorar la extracción de características de los elementos y la predicción de los intereses del usuario.

El HLLM consta de dos componentes principales: el LLM de ítems y el LLM de usuarios. El LLM de ítems es responsable de extraer características detalladas de las descripciones de ítems agregando un token especial a los datos de texto. Este proceso transforma datos de texto extensos en incrustaciones concisas, que luego se pasan al LLM de usuarios. El LLM de usuarios procesa estas incrustaciones para modelar el comportamiento del usuario y predecir interacciones futuras. Esta arquitectura jerárquica reduce la complejidad computacional que suele asociarse con los LLM en los sistemas de recomendación al desacoplar el modelado de ítems y usuarios. Maneja de manera eficiente nuevos ítems y usuarios, superando significativamente a los modelos tradicionales basados ​​en ID en escenarios de inicio en frío.

El rendimiento del modelo HLLM se probó rigurosamente utilizando dos conjuntos de datos a gran escala, PixelRec y Amazon Reviews, que incluían millones de interacciones entre usuarios y artículos. Por ejemplo, el subconjunto de 8 millones de PixelRec incluía 3 millones de usuarios y más de 19 millones de interacciones de usuarios. El HLLM logró un rendimiento de vanguardia en estas pruebas, con una marcada mejora con respecto a los modelos tradicionales. Específicamente, la recuperación en el top 5 (R@5) para HLLM alcanzó 6,129, un aumento significativo en comparación con los modelos de referencia como SASRec, que solo logró 5,142. El rendimiento del modelo en las pruebas A/B en línea fue impresionante, demostrando mejoras notables en los sistemas de recomendación del mundo real. El HLLM demostró ser más eficiente en el entrenamiento, requiriendo menos épocas que los modelos basados ​​en ID. Aun así, también mostró una escalabilidad excepcional, mejorando el rendimiento a medida que los parámetros del modelo aumentaron de 1000 millones a 7000 millones.

Los resultados del HLLM son convincentes, en particular su capacidad para ajustar con precisión los modelos LLM previamente entrenados para tareas de recomendación. A pesar de utilizar menos datos para el entrenamiento, el HLLM superó a los modelos tradicionales en varias métricas. Por ejemplo, la recuperación en el top 10 (R@10) para HLLM en el conjunto de datos PixelRec fue de 12,475, mientras que los modelos basados ​​en ID como SASRec mostraron solo mejoras modestas, llegando a 11,010. Además, en escenarios de arranque en frío, donde los modelos tradicionales tienden a tener un rendimiento deficiente, el HLLM se destacó, demostrando su capacidad para generalizar de manera efectiva con datos mínimos.

En conclusión, la introducción de HLLM representa un avance significativo en la tecnología de recomendación, que aborda algunos de los desafíos más urgentes en el campo. La capacidad del modelo para integrar el modelado de elementos y usuarios a través de modelos de lenguaje a gran escala mejora la precisión de la recomendación y mejora la escalabilidad. Al aprovechar el conocimiento previamente entrenado y el ajuste fino para tareas específicas, HLLM logra un rendimiento superior, particularmente en aplicaciones del mundo real. Este enfoque demuestra el potencial de los LLM para revolucionar los sistemas de recomendación, ofreciendo una solución más eficiente y escalable que supera a los métodos tradicionales. El éxito de HLLM tanto en entornos experimentales como del mundo real sugiere que podría convertirse en un actor clave en los futuros sistemas de recomendación, particularmente en entornos ricos en datos donde persisten los problemas de arranque en frío y escalabilidad.


Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Leer más
Back to top button