Liquid AI presenta los modelos de base líquida (LFM): una serie 1B, 3B y 40B de modelos de IA generativa

Liquid AI ha lanzado su Primera serie de modelos de base líquida (LFM)marcando el comienzo de una nueva generación de modelos de IA generativa. Estos modelos se posicionan como un nuevo punto de referencia para el rendimiento y la eficiencia en múltiples escalas, es decir, las configuraciones de parámetros 1B, 3B y 40B. Esta serie tiene como objetivo establecer un nuevo estándar para los modelos de IA generativa al lograr un rendimiento de vanguardia en varios puntos de referencia mientras mantiene una huella de memoria más pequeña y capacidades de inferencia más eficientes.

La primera serie de LFM comprende tres modelos principales:

LFM-1B: Un modelo de mil millones de parámetros que ofrece un rendimiento de vanguardia para su categoría de tamaño. Ha logrado las puntuaciones más altas en varios puntos de referencia de su clase, superando a muchos modelos basados en transformadores a pesar de no estar construido sobre la arquitectura GPT ampliamente utilizada.
LFM-3B: Un modelo de 3 mil millones de parámetros ideal para aplicaciones móviles y perimetrales. No sólo supera a sus competidores directos en términos de eficiencia y velocidad, sino que también se posiciona como un digno contendiente frente a modelos en rangos de parámetros más altos, como los modelos 7B y 13B de generaciones anteriores.
LFM-40B: Un modelo de combinación de expertos (MoE) de 40 mil millones de parámetros diseñado para tareas más complejas. Este modelo equilibra su rendimiento y calidad de salida con modelos aún más grandes debido a su arquitectura avanzada, que permite la activación selectiva de segmentos del modelo según la tarea, optimizando así la eficiencia computacional.

Innovaciones arquitectónicas y principios de diseño

Los LFM se construyen a partir de los primeros principios y se centran en el diseño de potentes sistemas de inteligencia artificial que ofrecen un control sólido sobre sus capacidades. Según Liquid AI, estos modelos se construyen utilizando unidades computacionales profundamente arraigadas en sistemas dinámicos, procesamiento de señales y teorías de álgebra lineal numérica. Esta combinación única permite a los LFM aprovechar los avances teóricos en estos campos para crear modelos de IA de uso general capaces de manejar tipos de datos secuenciales, como video, audio, texto y series temporales.

El diseño de los LFM enfatiza dos aspectos principales: caracterización y huella. La caracterización consiste en convertir datos de entrada en un conjunto estructurado de características o vectores utilizados para modular el cálculo dentro del modelo de manera adaptativa. Por ejemplo, los datos de audio y series temporales generalmente requieren menos caracterización por parte de los operadores debido a una menor densidad de información en comparación con el lenguaje y los datos multimodales.

La pila LFM se está optimizando para su implementación en varias plataformas de hardware, incluidas NVIDIA, AMD, Qualcomm, Cerebras y Apple. Esta optimización permite mejoras de rendimiento en diferentes entornos de implementación, desde dispositivos perimetrales hasta infraestructuras de nube a gran escala.

Comparación y puntos de referencia de rendimiento

Las pruebas iniciales de los LFM muestran resultados impresionantes en comparación con modelos similares. El modelo 1B, por ejemplo, superó a varios modelos basados en transformadores en términos de puntuaciones de aprendizaje y comprensión multimodal (MMLU) y otras métricas de referencia. De manera similar, el rendimiento del modelo 3B se ha comparado con los modelos de las categorías 7B y 13B, lo que lo hace muy adecuado para entornos con recursos limitados.

El modelo 40B MoE, por otro lado, ofrece un nuevo equilibrio entre el tamaño del modelo y la calidad de salida. La arquitectura de este modelo aprovecha una combinación única de expertos para permitir un mayor rendimiento e implementación en hardware rentable. Logra un rendimiento comparable al de modelos más grandes debido a su utilización eficiente de la arquitectura MoE.

Fortalezas clave y casos de uso

Liquid AI ha destacado varias áreas en las que los LFM demuestran fortalezas significativas, incluido el conocimiento general y experto, las matemáticas y el razonamiento lógico, y tareas eficientes de contexto prolongado. Los modelos también ofrecen sólidas capacidades multilingües y admiten los idiomas español, francés, alemán, chino, árabe, japonés y coreano. Sin embargo, los LFM son menos efectivos en tareas de código de disparo cero y cálculos numéricos precisos. Se espera que esta brecha se aborde en futuras iteraciones de los modelos.

Los LFM también se han optimizado para manejar longitudes de contexto más largas de manera más efectiva que los modelos de transformadores tradicionales. Por ejemplo, los modelos pueden procesar hasta 32.000 tokens en contexto, lo que los hace particularmente efectivos para tareas de análisis y resumen de documentos, interacciones más significativas con chatbots sensibles al contexto y un rendimiento mejorado de generación aumentada de recuperación (RAG).

Implementación y direcciones futuras

Los LFM de Liquid AI están actualmente disponibles para pruebas e implementación en varias plataformas, incluidas Liquid Playground, Lambda (Chat UI y API), Perplexity Labs y pronto en Cerebras Inference. La hoja de ruta de Liquid AI sugiere que continuará optimizando y lanzando nuevas capacidades en los próximos meses, ampliando el alcance y la aplicabilidad de los LFM a diversas industrias, como los servicios financieros, la biotecnología y la electrónica de consumo.

En cuanto a la estrategia de implementación, los LFM están diseñados para ser adaptables a través de múltiples modalidades y requisitos de hardware. Esta adaptabilidad se logra a través de operadores lineales adaptativos que están estructurados para responder dinámicamente en función de las entradas. Esta flexibilidad es fundamental para implementar estos modelos en entornos que van desde servidores en la nube de alta gama hasta dispositivos perimetrales con recursos más limitados.

Conclusión

La primera serie de Liquid Foundation Models (LFM) de Liquid AI representa un prometedor paso adelante en el desarrollo de modelos generativos de IA. Los LFM tienen como objetivo redefinir lo que es posible en el diseño y la implementación de modelos de IA logrando un rendimiento y una eficiencia superiores. Si bien estos modelos no son de código abierto y solo están disponibles como parte de un lanzamiento controlado, su arquitectura única y su enfoque innovador los posicionan como contendientes importantes en el panorama de la IA.

Mira el Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Quiere estar frente a más de 1 millón de lectores de IA? Trabaja con nosotros aquí

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.