Molmo de AI2 demuestra que el código abierto puede igualar y superar a los modelos multimodales cerrados

La opinión generalizada es que empresas como Google, OpenAI y Anthropic, con reservas de efectivo ilimitadas y cientos de investigadores de primer nivel, son las únicas que pueden crear un modelo de base de última generación. Pero, como señaló una de ellas, “no tienen foso”, y AI2 lo demostró hoy con el lanzamiento de Molmo, un modelo de IA multimodal que está a la altura de sus mejores capacidades y, al mismo tiempo, es pequeño, gratuito y verdaderamente de código abierto.

Para ser claros, Molmo (modelo de lenguaje abierto multimodal) es un motor de comprensión visual, no un chatbot de servicio completo como ChatGPT. No tiene una API, no está listo para la integración empresarial y no busca en la web por usted ni para sus propios fines. Puede pensar en él como la parte de esos modelos que ve una imagen, la entiende y puede describirla o responder preguntas sobre ella.

Molmo (que se presenta en variantes con parámetros 72B, 7B y 1B), al igual que otros modelos multimodales, es capaz de identificar y responder preguntas sobre casi cualquier situación u objeto cotidiano. ¿Cómo se hace funcionar esta cafetera? ¿Cuántos perros de esta imagen tienen la lengua afuera? ¿Qué opciones de este menú son veganas? ¿Cuáles son las variables de este diagrama? Es el tipo de tarea de comprensión visual que hemos visto demostrada con distintos niveles de éxito y latencia durante años.

Lo que es diferente no son necesariamente las capacidades de Molmo (que puedes ver en la demostración a continuación o probar aquí), sino cómo las logra.

La comprensión visual es un campo muy amplio, por supuesto, que abarca desde contar ovejas en un campo hasta adivinar el estado emocional de una persona o resumir un menú. Como tal, es difícil de describir, y mucho menos de probar cuantitativamente, pero como explicó el presidente de AI2, Ali Farhadi, en un evento de demostración en la sede de la organización de investigación en Seattle, al menos se puede demostrar que dos modelos tienen capacidades similares.

“Una cosa que estamos demostrando hoy es que lo abierto es igual a lo cerrado”, dijo, “y lo pequeño ahora es igual a lo grande”. (Aclaró que quiso decir ==, es decir, equivalencia, no identidad; una distinción sutil que algunos apreciarán).

Una constante en el desarrollo de la IA ha sido que “cuanto más grande, mejor”. Más datos de entrenamiento, más parámetros en el modelo resultante y más potencia de cálculo para crearlos y operarlos. Pero llega un momento en que, literalmente, no se pueden hacer más grandes: no hay suficientes datos para hacerlo, o los costos y tiempos de cálculo son tan altos que se vuelven contraproducentes. Simplemente hay que conformarse con lo que se tiene o, mejor aún, hacer más con menos.

Farhadi explicó que Molmo, aunque tiene un rendimiento similar al de GPT-4o, Gemini 1.5 Pro y Claude-3.5 Sonnet, pesa (según las mejores estimaciones) aproximadamente una décima parte de su tamaño. Y se acerca a su nivel de capacidad con un modelo que es una décima parte de eso.

Créditos de la imagen: AI2

“Hay docenas de puntos de referencia diferentes que la gente utiliza para evaluar. No me gusta este juego, científicamente… pero tenía que mostrarle a la gente un número”, explicó. “Nuestro modelo más grande es un modelo pequeño, 72B, que supera a los GPT, Claude y Gemini en esos puntos de referencia. De nuevo, tómalo con pinzas; ¿significa esto que realmente es mejor que ellos o no? No lo sé. Pero al menos para nosotros, significa que estamos jugando el mismo juego”.

Si quieres intentar solucionarlo, puedes consultar la demostración pública, que también funciona en dispositivos móviles. (Si no quieres iniciar sesión, puedes actualizar o desplazarte hacia arriba y “editar” el mensaje original para reemplazar la imagen).

El secreto es utilizar menos datos, pero de mejor calidad. En lugar de entrenar con una biblioteca de miles de millones de imágenes que no se pueden controlar en su totalidad, describir o desduplicar, AI2 seleccionó y anotó un conjunto de solo 600.000. Obviamente, sigue siendo mucho, pero en comparación con seis mil millones, es una gota en el océano: una fracción de un porcentaje. Si bien esto deja fuera un poco de material de cola larga, su proceso de selección y su interesante método de anotación les brindan descripciones de muy alta calidad.

¿Es interesante cómo? Bueno, muestran a personas una imagen y les piden que la describan en voz alta. Resulta que la gente habla de las cosas de manera diferente a como las escribe, y esto produce resultados no solo precisos sino también conversacionales y útiles. Las descripciones de imágenes resultantes que produce Molmo son ricas y prácticas.

Esto se demuestra mejor con su nueva capacidad, y al menos durante unos días, única de “señalar” las partes relevantes de las imágenes. Cuando se le pidió que contara los perros en una foto (33), puso un punto en cada una de sus caras. Cuando se le pidió que contara las lenguas, puso un punto en cada lengua. Esta especificidad le permite realizar todo tipo de nuevas acciones de disparo cero. Y lo que es más importante, también funciona en interfaces web: sin mirar el código del sitio web, el modelo entiende cómo navegar por una página, enviar un formulario, etc. (Rabbit mostró recientemente algo similar para su r1, que se lanzará la semana que viene).

Créditos de la imagen: AI2

Entonces, ¿por qué importa todo esto? Los modelos aparecen prácticamente todos los días. Google acaba de anunciar algunos. OpenAI tiene un día de demostración por delante. Perplexity está constantemente adelantando algo u otro. Meta está promocionando la versión de Llama, o lo que sea.

Bueno, Molmo es completamente gratuito y de código abierto, además de ser lo suficientemente pequeño como para poder ejecutarse localmente. No se necesita API, suscripción ni clúster de GPU refrigerado por agua. La intención de crear y lanzar el modelo es empoderar a los desarrolladores y creadores para que creen aplicaciones, servicios y experiencias impulsados ​​por IA sin necesidad de solicitar permiso (y pagar) a una de las empresas tecnológicas más grandes del mundo.

“Nos dirigimos a investigadores, desarrolladores, desarrolladores de aplicaciones, personas que no saben cómo manejar estos (grandes) modelos. Un principio clave para llegar a una audiencia tan amplia es el principio clave que hemos estado impulsando durante un tiempo, que es: hacerlo más accesible”, dijo Farhadi. “Estamos publicando todo lo que hemos hecho. Esto incluye datos, limpieza, anotaciones, capacitación, código, puntos de control, evaluación. Estamos publicando todo lo que hemos desarrollado”.

Agregó que espera que la gente comience a trabajar con este conjunto de datos y código de inmediato, incluidos los rivales con mucho dinero, que absorben cualquier dato “público disponible”, es decir, cualquier cosa que no esté confirmada. (“Si lo mencionan o no es una historia completamente diferente”, agregó).

El mundo de la IA avanza rápido, pero cada vez más los gigantes se ven envueltos en una carrera hacia el abismo, reduciendo los precios al mínimo indispensable mientras recaudan cientos de millones para cubrir el coste. Si existen capacidades similares disponibles en opciones gratuitas y de código abierto, ¿puede ser realmente tan astronómico el valor que ofrecen esas empresas? Como mínimo, Molmo demuestra que, aunque no se sabe si el emperador tiene ropa, definitivamente no tiene foso.

Leer más
Back to top button