Hex-LLM: un nuevo marco de servicio de LLM diseñado para ofrecer de manera eficiente LLM abiertos en TPU de Google Cloud

En el mundo de la inteligencia artificial en rápida evolución, los grandes modelos de lenguaje (LLM) se han convertido en herramientas esenciales para una variedad de aplicaciones, que van desde la comprensión del lenguaje natural hasta la generación de contenido. Si bien las capacidades de estos modelos continúan expandiéndose, servirlos e implementarlos de manera eficiente sigue siendo un desafío, particularmente cuando se trata de equilibrar el costo, el rendimiento y la latencia. Los avances recientes de Google y la introducción de Hex-LLM, un marco de servicio especializado, ofrecen soluciones prometedoras para implementar eficientemente LLM abiertos de Hugging Face en las TPU de Google.

Hex-LLM: un punto de inflexión para ofrecer LLM abiertos en TPU

Hex-LLM es el marco de servicio LLM interno de Vertex AI que está diseñado y optimizado para el hardware Cloud TPU de Google, que está disponible como parte de AI Hypercomputer. Proporciona una solución de alto rendimiento y bajo costo para implementar modelos de código abierto de Hugging Face. Desarrollado para abordar los desafíos de servir modelos grandes a escala, Hex-LLM se destaca por sus técnicas avanzadas de optimización, que le permiten manejar cargas de trabajo importantes con una eficiencia impresionante.

Características clave e innovaciones de Hex-LLM

Para brindar servicios LLM de manera eficiente en TPU, Hex-LLM integra una variedad de características clave y técnicas de optimización, que mejoran significativamente el rendimiento:

Lotes continuos basados en tokens: Una de las características destacadas de Hex-LLM es el procesamiento por lotes continuo basado en tokens. Este método permite una utilización eficiente de los recursos de TPU mediante el procesamiento de tokens entrantes en un flujo continuo. Al manejar las solicitudes de esta manera, Hex-LLM maximiza el rendimiento, reduciendo significativamente el costo por token servido. Este enfoque garantiza que no se desperdicien ciclos de TPU, lo que da como resultado un aumento general de la eficiencia.
Núcleos de atención paginada optimizados para XLA: Hex-LLM emplea núcleos PagedAttention optimizados XLA (Álgebra lineal acelerada), que son cruciales para gestionar el mecanismo de atención de los modelos de transformadores. Estos núcleos están diseñados para explotar todo el potencial del hardware TPU, minimizando la latencia y la carga computacional asociada con los cálculos de atención. Al aprovechar los núcleos optimizados para XLA, Hex-LLM logra una inferencia de baja latencia, lo cual es esencial para aplicaciones que requieren respuestas en tiempo real o casi en tiempo real.
Paralelismo tensorial: Otra característica crítica de Hex-LLM es el paralelismo tensorial, que permite la distribución de cálculos de modelos en múltiples núcleos de TPU. Este paralelismo es particularmente beneficioso para dar servicio a modelos grandes como Llama 2 70B, ya que permite dividir la carga de trabajo de manera efectiva, asegurando que las TPU funcionen con la máxima eficiencia sin verse obstaculizadas por tareas de un solo subproceso.
Adaptadores LoRA dinámicos y cuantificación: Hex-LLM admite el uso de adaptadores de adaptación dinámica de bajo rango (LoRA), que ofrecen una forma flexible de ajustar modelos para tareas específicas sin volver a entrenar todo el modelo. Además, Hex-LLM admite técnicas de cuantificación, incluidas BNB (base neuronal a escala de mil millones) y AWQ (cuantización de peso adaptativa), lo que permite que los modelos se ejecuten con menor precisión, lo que reduce el uso de memoria y aumenta la velocidad de inferencia sin comprometer el rendimiento.

Integración con Hugging Face Hub

Hex-LLM se integra directamente con Hugging Face Hub, lo que permite a los desarrolladores cargar y servir modelos fácilmente desde la extensa biblioteca de LLM abiertos disponibles. Esta integración perfecta simplifica el proceso de implementación de modelos en las TPU de Google, lo que lo hace más accesible para quienes no tienen una amplia experiencia con la infraestructura de TPU. Al extraer modelos directamente de Hugging Face, los usuarios pueden experimentar rápidamente con diferentes LLM e implementarlos en entornos de producción sin la necesidad de una configuración manual extensa.

Métricas de rendimiento: velocidad y costo

El rendimiento de Hex-LLM es impresionante, especialmente cuando se trata de modelos grandes. Por ejemplo, Hex-LLM logra un rendimiento de 1510 tokens de salida por segundo para Llama 2 70B en precisión int8 en un solo TPU v5e-8con un coste aproximado de $9.60 por hora. Esto se traduce en un latencia de 26 milisegundos por tokenlo cual es notable para un modelo de este tamaño. Estas métricas demuestran que Hex-LLM no solo es capaz de atender modelos grandes con alta eficiencia, sino que también lo hace a un costo factible para muchas aplicaciones.

Disponibilidad en Vertex AI Model Garden

Hex-LLM está disponible como parte del Jardín modelo Vertex AIuna plataforma que ofrece una amplia variedad de modelos y herramientas previamente entrenados para el aprendizaje automático. Al incluir Hex-LLM en Model Garden, Google proporciona a los usuarios una forma sencilla de acceder e implementar LLM abiertos en TPU, completa con las optimizaciones que ofrece el marco Hex-LLM. Esta disponibilidad garantiza que los usuarios puedan aprovechar el poder de las TPU para la implementación de LLM sin necesidad de configurar la infraestructura desde cero.

Conclusión

Hex-LLM representa un importante paso adelante en el servicio eficiente de LLM abiertos, particularmente para usuarios que buscan implementar modelos grandes en Google TPU. Con características como procesamiento por lotes continuo basado en tokens, kernels PagedAttention optimizados para XLA, paralelismo tensorial e integración directa con Hugging Face, Hex-LLM ofrece una solución potente y rentable para la implementación de LLM. Si bien su estado actual como marco de código cerrado puede limitar su accesibilidad, las ganancias de rendimiento y las reducciones de costos que proporciona lo convierten en una opción atractiva para las organizaciones que buscan aprovechar el poder de los grandes modelos de lenguaje en sus aplicaciones.

Mira el Detalles aquí y Publicación vinculada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos GenAI (promovida)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos de GenAI: únase a más de 300 ejecutivos de GenAI de Bayer, Microsoft, Flagship Pioneering, para aprender cómo crear una búsqueda de IA rápida y precisa en el almacenamiento de objetos. (Promovido)