Cerebras Systems revoluciona la inferencia de IA: 3 veces más rápido con Llama 3.1-70B a 2100 tokens por segundo

La Inteligencia Artificial (IA) continúa evolucionando rápidamente, pero con esa evolución surgen una serie de desafíos técnicos que deben superarse para que la tecnología realmente florezca. Uno de los desafíos más apremiantes hoy en día radica en el desempeño de la inferencia. Los modelos de lenguajes grandes (LLM), como los utilizados en aplicaciones basadas en GPT, exigen un gran volumen de recursos computacionales. El cuello de botella se produce durante la inferencia, la etapa en la que los modelos entrenados generan respuestas o predicciones. Esta etapa a menudo enfrenta limitaciones debido a las limitaciones de las soluciones de hardware actuales, lo que hace que el proceso sea lento, consuma mucha energía y tenga un costo prohibitivo. A medida que los modelos se hacen más grandes, las soluciones tradicionales basadas en GPU se quedan cada vez más cortas en términos de velocidad y eficiencia, lo que limita el potencial transformador de la IA en aplicaciones en tiempo real. Esta situación crea la necesidad de soluciones más rápidas y eficientes para seguir el ritmo de las demandas de las cargas de trabajo modernas de IA.

¡La inferencia de Cerebras Systems se vuelve 3 veces más rápida! Llama 3.1-70B a 2100 tokens por segundo

Cerebras Systems ha logrado un avance significativo, afirmando que su proceso de inferencia es ahora tres veces más rápido que antes. Específicamente, la compañía ha logrado la asombrosa cifra de 2.100 tokens por segundo con el modelo Llama 3.1-70B. Esto significa que Cerebras Systems es ahora 16 veces más rápido que la solución GPU más rápida disponible actualmente. Este tipo de salto de rendimiento es similar a una actualización de toda una generación en la tecnología GPU, como pasar de NVIDIA A100 a H100, pero todo se logra mediante una actualización de software. Además, no son sólo los modelos más grandes los que se benefician de este aumento: Cerebras ofrece 8 veces la velocidad de las GPU que ejecutan el Llama 3.1-3B, mucho más pequeño, que tiene una escala 23 veces más pequeña. Estos impresionantes avances subrayan la promesa que Cerebras aporta al campo, al hacer que la inferencia eficiente y de alta velocidad esté disponible a un ritmo sin precedentes.

Mejoras técnicas y beneficios

Las innovaciones técnicas detrás del último salto de rendimiento de Cerebras incluyen varias optimizaciones internas que mejoran fundamentalmente el proceso de inferencia. Los núcleos críticos como la multiplicación de matrices (MatMul), la reducción/difusión y las operaciones de elementos se han reescrito y optimizado por completo para mayor velocidad. Cerebras también ha implementado el cálculo de E/S de oblea asíncrono, que permite superponer la comunicación y el cálculo de datos, asegurando la máxima utilización de los recursos disponibles. Además, se ha introducido una decodificación especulativa avanzada, que reduce eficazmente la latencia sin sacrificar la calidad de los tokens generados. Otro aspecto clave de esta mejora es que Cerebras mantuvo una precisión de 16 bits para los pesos del modelo original, asegurando que este aumento en la velocidad no comprometa la precisión del modelo. Todas estas optimizaciones se han verificado mediante meticulosos análisis artificiales para garantizar que no degraden la calidad de la salida, lo que hace que el sistema de Cerebras no solo sea más rápido sino también confiable para aplicaciones de nivel empresarial.

Potencial transformador y aplicaciones del mundo real

Las implicaciones de este aumento del rendimiento son de gran alcance, especialmente si se consideran las aplicaciones prácticas de los LLM en sectores como la atención sanitaria, el entretenimiento y la comunicación en tiempo real. GSK, un gigante farmacéutico, ha destacado cómo la velocidad de inferencia mejorada de Cerebras está transformando fundamentalmente su proceso de descubrimiento de fármacos. Según Kim Branson, vicepresidente senior de IA/ML de GSK, los avances de Cerebras en IA están permitiendo que los agentes de investigación inteligentes trabajen de forma más rápida y eficaz, proporcionando una ventaja crítica en el competitivo campo de la investigación médica. De manera similar, LiveKit, una plataforma que potencia el modo de voz de ChatGPT, ha experimentado una mejora drástica en el rendimiento. Russ d’Sa, director ejecutivo de LiveKit, comentó que lo que solía ser el paso más lento en su proceso de IA ahora se ha convertido en el más rápido. Esta transformación está permitiendo capacidades de procesamiento instantáneo de voz y video, abriendo nuevas puertas para el razonamiento avanzado, aplicaciones inteligentes en tiempo real y permitiendo hasta 10 veces más pasos de razonamiento sin aumentar la latencia. Los datos muestran que las mejoras no son sólo teóricas; están remodelando activamente los flujos de trabajo y reduciendo los cuellos de botella operativos en todas las industrias.

Conclusión

Cerebras Systems ha demostrado una vez más su dedicación a ampliar los límites de la tecnología de inferencia de IA. Con un aumento triple en la velocidad de inferencia y la capacidad de procesar 2100 tokens por segundo con el modelo Llama 3.1-70B, Cerebras está estableciendo un nuevo punto de referencia de lo que es posible en hardware de IA. Al centrarse en optimizaciones de software y hardware, Cerebras está ayudando a la IA a trascender los límites de lo que antes se podía lograr, no solo en velocidad sino también en eficiencia y escalabilidad. Este último salto significa más aplicaciones inteligentes en tiempo real, un razonamiento de IA más sólido y una experiencia de usuario más fluida e interactiva. A medida que avanzamos, este tipo de avances son fundamentales para garantizar que la IA siga siendo una fuerza transformadora en todas las industrias. Con Cerebras a la cabeza, el futuro de la inferencia de IA parece más rápido, más inteligente y más prometedor que nunca.

Mira el Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS‘

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️