Mistral AI lanza Pixtral Large: un modelo multimodal de pesos abiertos 124B construido sobre Mistral Large 2

En el campo en evolución de la inteligencia artificial, un desafío importante ha sido construir modelos que sobresalgan en tareas específicas y al mismo tiempo sean capaces de comprender y razonar a través de múltiples tipos de datos, como texto, imágenes y audio. Los modelos tradicionales de lenguaje grande han tenido éxito en tareas de procesamiento del lenguaje natural (PNL), pero a menudo tienen dificultades para manejar diversas modalidades simultáneamente. Las tareas multimodales requieren un modelo que pueda integrar y razonar eficazmente sobre diferentes tipos de datos, lo que exige importantes recursos computacionales, conjuntos de datos a gran escala y una arquitectura bien diseñada. Además, los altos costos y la naturaleza patentada de la mayoría de los modelos de última generación crean barreras para las instituciones y desarrolladores más pequeños, lo que limita una innovación más amplia.

Conozca Pixtral Large: un paso hacia una IA multimodal accesible

Mistral AI ha dado un importante paso adelante con el lanzamiento de Pixtral Large: un modelo multimodal de 124 mil millones de parámetros construido sobre Mistral Large 2. Este modelo, lanzado con pesos abiertos, tiene como objetivo hacer que la IA avanzada sea más accesible. Mistral Large 2 ya se ha establecido como un modelo transformador eficiente a gran escala, y Pixtral se basa en esta base ampliando sus capacidades para comprender y generar respuestas en texto, imágenes y otros tipos de datos. Al abrir Pixtral Large, Mistral AI aborda la necesidad de modelos multimodales accesibles, contribuyendo al desarrollo comunitario y fomentando la colaboración en investigación.

Detalles técnicos

Técnicamente, Pixtral Large aprovecha la columna vertebral transformadora de Mistral Large 2, adaptándola para la integración multimodal mediante la introducción de capas especializadas de atención cruzada diseñadas para fusionar información en diferentes modalidades. Con 124 mil millones de parámetros, el modelo se ajusta a un conjunto de datos diverso que comprende texto, imágenes y anotaciones multimedia. Una de las fortalezas clave de Pixtral Large es su arquitectura modular, que le permite especializarse en diferentes modalidades manteniendo una comprensión general. Esta flexibilidad permite resultados multimodales de alta calidad, ya sea que se trate de responder preguntas sobre imágenes, generar descripciones o proporcionar información tanto a partir de texto como de datos visuales. Además, el modelo de pesos abiertos permite a los investigadores ajustar Pixtral para tareas específicas, ofreciendo oportunidades para adaptar el modelo a necesidades especializadas.

Para utilizar Pixtral Large de forma eficaz, Mistral AI recomienda emplear la biblioteca vLLM para canales de inferencia listos para producción. Asegúrese de que esté instalada la versión 1.6.2 o superior de vLLM:

pip install --upgrade vllm

Además, instale mistral_common versión 1.4.4 o superior:

pip install --upgrade mistral_common

Para una implementación sencilla, considere el siguiente ejemplo:

from vllm import LLM
from vllm.sampling_params import SamplingParams

model_name = "mistralai/Pixtral-12B-2409"
sampling_params = SamplingParams(max_tokens=8192)
llm = LLM(model=model_name, tokenizer_mode="mistral")

prompt = "Describe this image in one sentence."
image_url = "https://picsum.photos/id/237/200/300"
messages = (
    {
        "role": "user",
        "content": (
            {"type": "text", "text": prompt},
            {"type": "image_url", "image_url": {"url": image_url}}
        )
    },
)

outputs = llm.chat(messages, sampling_params=sampling_params)
print(outputs(0).outputs(0).text)

Este script inicializa el modelo Pixtral y procesa un mensaje de usuario que contiene texto y una URL de imagen, generando una respuesta descriptiva.

Importancia e impacto potencial

El lanzamiento de Pixtral Large es importante por varias razones. En primer lugar, la inclusión de pesos abiertos brinda una oportunidad para que la comunidad de investigación global y las nuevas empresas experimenten, personalicen e innoven sin soportar los altos costos asociados a menudo con los modelos de IA multimodal. Esto hace posible que las empresas más pequeñas y las instituciones académicas desarrollen aplicaciones impactantes y específicas de un dominio. Las pruebas iniciales realizadas por Mistral AI indican que Pixtral supera a sus predecesores en tareas multimodales, lo que demuestra una mayor precisión en la respuesta visual a preguntas (VQA), una generación de texto mejorada para descripciones de imágenes y un sólido rendimiento en puntos de referencia como COCO y VQAv2. Los resultados de las pruebas muestran que Pixtral Large logra hasta un 7% de mejora en la precisión en comparación con modelos similares en conjuntos de datos de referencia, destacando su efectividad para comprender y vincular diversos tipos de contenido. Estos avances pueden respaldar el desarrollo de aplicaciones que van desde la edición automatizada de medios hasta asistentes interactivos.

Conclusión

El lanzamiento de Pixtral Large por parte de Mistral AI marca un avance importante en el campo de la IA multimodal. Al aprovechar la sólida base proporcionada por Mistral Large 2, Pixtral Large amplía sus capacidades a múltiples formatos de datos manteniendo un sólido rendimiento. La naturaleza abierta del modelo lo hace accesible para desarrolladores, nuevas empresas e investigadores, promoviendo la inclusión y la innovación en un campo donde esas oportunidades a menudo han sido limitadas. Esta iniciativa de Mistral AI no sólo amplía las posibilidades técnicas de los modelos de IA, sino que también tiene como objetivo hacer que los recursos avanzados de IA estén ampliamente disponibles, proporcionando una plataforma para futuros avances. Será interesante ver cómo se aplica este modelo en todas las industrias, fomentando la creatividad y abordando problemas complejos que se benefician de una comprensión integrada de los datos multimodales.

Consulte los detalles y el modelo en Hugging Face. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

Por qué los modelos de lenguaje de IA siguen siendo vulnerables: información clave del informe de Kili Technology sobre las vulnerabilidades de los modelos de lenguaje grandes (Lea el informe técnico completo aquí)

Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.

🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.