Nexa AI lanza OmniVision-968M: el modelo de lenguaje de visión más pequeño del mundo con una reducción de tokens 9x para dispositivos perimetrales

Edge AI se ha enfrentado durante mucho tiempo al desafío de equilibrar la eficiencia y la eficacia. La implementación de modelos de lenguaje de visión (VLM) en dispositivos perimetrales es difícil debido a su gran tamaño, sus altas demandas computacionales y problemas de latencia. Los modelos diseñados para entornos de nube a menudo tienen problemas con los recursos limitados de los dispositivos de borde, lo que resulta en un uso excesivo de la batería, tiempos de respuesta más lentos y una conectividad inconsistente. La demanda de modelos livianos pero eficientes ha ido creciendo, impulsada por aplicaciones como la realidad aumentada, los asistentes domésticos inteligentes y la IoT industrial, que requieren un procesamiento rápido de entradas visuales y textuales. Estos desafíos se complican aún más por el aumento de las tasas de alucinaciones y los resultados poco confiables en tareas como la respuesta visual a preguntas o los subtítulos de imágenes, donde la calidad y la precisión son esenciales.

Nexa AI lanza OmniVision-968M: el modelo de lenguaje de visión más pequeño del mundo con una reducción de tokens de 9x para dispositivos perimetrales. OmniVision-968M ha sido diseñado con una arquitectura mejorada sobre LLaVA (Large Language and Vision Assistant), logrando un nuevo nivel de compacidad y eficiencia, ideal para correr en el límite. Con un diseño centrado en la reducción de tokens de imágenes en un factor de nueve (de 729 a solo 81), la latencia y la carga computacional típicamente asociadas con dichos modelos se han minimizado drásticamente.

La arquitectura de OmniVision se basa en tres componentes principales:

Modelo de lenguaje base: Qwen2.5-0.5B-Instruct sirve como modelo central para procesar entradas de texto.
Codificador de visión: SigLIP-400M, con una resolución de 384 y un tamaño de parche de 14×14, genera incrustaciones de imágenes.
Capa de proyección: Un perceptrón multicapa (MLP) alinea las incrustaciones del codificador de visión con el espacio de token del modelo de lenguaje. A diferencia de la arquitectura Llava estándar, nuestro proyector reduce 9 veces la cantidad de tokens de imágenes.

OmniVision-968M integra varios avances técnicos clave que lo convierten en la opción perfecta para la implementación periférica. La arquitectura del modelo se ha mejorado basándose en LLaVA, lo que le permite procesar entradas visuales y de texto con alta eficiencia. La reducción de tokens de imagen de 729 a 81 representa un salto significativo en la optimización, lo que lo hace casi nueve veces más eficiente en el procesamiento de tokens en comparación con los modelos existentes. Esto tiene un profundo impacto en la reducción de la latencia y los costos computacionales, que son factores críticos para los dispositivos de borde. Además, OmniVision-968M aprovecha la capacitación en optimización de preferencias directas (DPO) con fuentes de datos confiables, lo que ayuda a mitigar el problema de las alucinaciones, un desafío común en los sistemas de inteligencia artificial multimodal. Al centrarse en la respuesta visual a preguntas y los subtítulos de imágenes, el modelo tiene como objetivo ofrecer una experiencia de usuario precisa y fluida, garantizando confiabilidad y solidez en aplicaciones de vanguardia donde la respuesta en tiempo real y la eficiencia energética son cruciales.

El lanzamiento de OmniVision-968M representa un avance notable por varias razones. Principalmente, la reducción en el recuento de tokens disminuye significativamente los recursos computacionales necesarios para la inferencia. Para desarrolladores y empresas que buscan implementar VLM en entornos restringidos (como dispositivos portátiles, dispositivos móviles y hardware de IoT), el tamaño compacto y la eficiencia de OmniVision-968M lo convierten en una solución ideal. Además, la estrategia de capacitación de DPO ayuda a minimizar las alucinaciones, un problema común cuando los modelos generan información incorrecta o engañosa, lo que garantiza que OmniVision-968M sea eficiente y confiable. Los puntos de referencia preliminares indican que OmniVision-968M logra una reducción del 35 % en el tiempo de inferencia en comparación con los modelos anteriores, manteniendo o incluso mejorando la precisión en tareas como la respuesta visual a preguntas y los subtítulos de imágenes. Se espera que estos avances fomenten la adopción en industrias que requieren interacciones de IA de alta velocidad y bajo consumo, como la atención médica, las ciudades inteligentes y el sector automotriz.

En conclusión, OmniVision-968M de Nexa AI aborda una brecha de larga data en la industria de la IA: la necesidad de modelos de lenguaje de visión altamente eficientes que puedan ejecutarse sin problemas en dispositivos de borde. Al reducir los tokens de imágenes, optimizar la arquitectura de LLaVA e incorporar capacitación en DPO para garantizar resultados confiables, OmniVision-968M representa una nueva frontera en la IA de vanguardia. Este modelo nos acerca a la visión de la IA ubicua, donde los dispositivos inteligentes y conectados pueden realizar tareas multimodales sofisticadas localmente sin la necesidad de un soporte constante en la nube.

Mira el Modelo abrazando la cara y Otros detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🐝🐝 Próximo evento en vivo de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.