Molmo de AI2 demuestra que el código abierto puede igualar y superar a los modelos multimodales cerrados

AI2’s Molmo shows open source can meet, and beat, closed multimodal models

La opinión generalizada es que empresas como Google, OpenAI y Anthropic, con reservas de efectivo ilimitadas y cientos de investigadores de primer nivel, son las únicas que pueden crear un modelo de base de última generación. Pero, como señaló una de ellas, “no tienen foso”, y AI2 lo demostró hoy con el lanzamiento de Molmo, un modelo de IA multimodal que está a la altura de sus mejores capacidades y, al mismo tiempo, es pequeño, gratuito y verdaderamente de código abierto.

Para ser claros, Molmo (modelo de lenguaje abierto multimodal) es un motor de comprensión visual, no un chatbot de servicio completo como ChatGPT. No tiene una API, no está listo para la integración empresarial y no busca en la web por usted ni para sus propios fines. Puede pensar en él como la parte de esos modelos que ve una imagen, la entiende y puede describirla o responder preguntas sobre ella.

Molmo (que se presenta en variantes con parámetros 72B, 7B y 1B), al igual que otros modelos multimodales, es capaz de identificar y responder preguntas sobre casi cualquier situación u objeto cotidiano. ¿Cómo se hace funcionar esta cafetera? ¿Cuántos perros de esta imagen tienen la lengua afuera? ¿Qué opciones de este menú son veganas? ¿Cuáles son las variables de este diagrama? Es el tipo de tarea de comprensión visual que hemos visto demostrada con distintos niveles de éxito y latencia durante años.

Lo que es diferente no son necesariamente las capacidades de Molmo (que puedes ver en la demostración a continuación o probar aquí), sino cómo las logra.