Moonvalley quiere construir modelos de vídeo más éticos

La amplia disponibilidad de herramientas para construir IA generativa ha provocado una explosión cámbrica de nuevas empresas en el espacio. La abundancia de capital tampoco ha hecho daño, ni tampoco el costo decreciente de la infraestructura técnica necesaria.

De hecho, una de las aplicaciones más llamativas de la IA generativa, el vídeo generativo, corre el riesgo de sobresaturarse. Laboratorios como Genmo, Haiper y Rhymes AI están lanzando modelos a un ritmo rápido y, en algunos casos, poco los distingue de la tecnología de punta anterior.

Naeem Talukdar cree que la confianza (no necesariamente las capacidades de un modelo) es lo que diferenciará a algunas empresas de vídeo generativo del resto. Es por eso que está fundando Moonvalley, una startup con sede en Los Ángeles que está desarrollando herramientas de video generativo aparentemente más “transparentes”.

Talukdar lideró el crecimiento de productos en Zapier antes de fundar Draft, una empresa respaldada por Y Combinator, que albergaba un mercado para contenido empresarial de IA. Reclutó a Mateusz Malinowski y Mik Binkowski para lanzar Moonvalley, ambos ex científicos de DeepMind, donde estudiaron técnicas de generación de video.

“Compartimos la creencia de que la generación de videos iba a transformar los medios y el entretenimiento, pero las nuevas empresas que vimos operando en el espacio no tenían los atributos necesarios para tener éxito”, dijo Talukdar a TechCrunch. “Las empresas existentes eran profundamente antagónicas hacia los artistas, los creadores y la industria en general”.

Según Talukdar, la mayoría de las empresas de IA generativa entrenan modelos con datos públicos, algunos de los cuales invariablemente tienen derechos de autor. Estas empresas argumentan que la doctrina del uso legítimo protege la práctica. Por ejemplo, OpenAI ha insistido en que no puede entrenar adecuadamente modelos sin material protegido por derechos de autor, y Suno ha argumentado que el entrenamiento indiscriminado no es diferente de “un niño que escribe sus propias canciones de rock después de escuchar el género”.

Algunos miembros del equipo fundador de Moonvalley. (De izquierda a derecha): Mateusz Malinowski, Byrn Mooser, Mikolaj Binkowski y John Thomas. Mikolaj Binkowski y John Thomas.Créditos de imagen:monvalle

Pero eso no ha impedido que los propietarios de derechos presenten quejas o soliciten cese y desista.

Los vendedores se han vuelto bastante descarados incluso cuando se acumulan las demandas en su contra. A principios de este año, la ex directora de tecnología de OpenAI, Mira Murati, no negó rotundamente que el modelo de video de OpenAI, Sora, fuera entrenado en clips de YouTube, en una aparente violación de la política de uso de YouTube. Por otra parte, un informe de 404 Media sugiere que Runway, una startup de videos generativos, extrajo imágenes de YouTube de canales pertenecientes a Disney y creadores como MKBHD sin permiso.

La startup canadiense de inteligencia artificial, Viggle, admite abiertamente que utiliza videos de YouTube para impulsar sus modelos de video. Y, como la mayoría de sus rivales, no ofrece ningún recurso para los creadores cuyas obras podrían haber sido absorbidas por su formación.

“Los modelos generativos deben respetar los derechos de autor, las marcas registradas y los derechos de imagen”, dijo Talukdar. “Es por eso que nos asociamos estrechamente con los creadores de nuestros modelos”.

Moonvalley, que aún no tiene un modelo de video completamente entrenado, afirma que es una de las pocas empresas que utiliza datos con licencia exclusiva de propietarios de contenido que han “optado por participar”. Para cubrir sus bases, Moonvalley tiene la intención de permitir que los creadores soliciten que su contenido sea eliminado de sus modelos, permitir a los clientes eliminar sus datos en cualquier momento y ofrecer una política de indemnización para proteger a los usuarios de desafíos de derechos de autor.

El enfoque es paralelo al de Adobe, que está entrenando sus modelos de video Firefly en contenido con licencia de su plataforma Adobe Stock. Talukdar no dijo cuánto paga Moonvalley a los contribuyentes por los clips, pero podría ser bastante. Bloomberg informó que Adobe ofrecía alrededor de 120 dólares por cada 40 a 45 minutos de vídeo.

Para ser claros, Moonvalley no está adquiriendo contenido en sí. Está trabajando con socios anónimos que manejan los acuerdos de licencia y empaquetan videos en conjuntos de datos que compra Moonvalley.

Estos socios, los llamados “corredores de datos”, tienen una gran demanda en estos días, gracias al auge de la IA generativa. Se espera que el mercado de datos de entrenamiento de IA crezca de aproximadamente 2.500 millones de dólares actuales a casi 30.000 millones de dólares dentro de una década.

“Estamos otorgando licencias de datos de alta calidad de múltiples fuentes que trabajan directamente con los creadores y les compensan bien por el uso de su contenido”, añadió Talukdar. “Nos estamos asegurando de utilizar un conjunto de datos diverso y de alta calidad”.

A diferencia de algunos modelos de vídeo “sin filtro” que insertan fácilmente la imagen de una persona en los clips, Moonvalley también se compromete a construir barreras alrededor de sus herramientas creativas. Al igual que Sora de OpenAI, los modelos de Moonvalley bloquearán cierto contenido, como frases NSFW, y no permitirán que las personas les soliciten que generen videos de personas o celebridades específicas.

Por supuesto, ningún filtro es perfecto, pero Talukdar dice que este “equipo rojo” será una parte central de la estrategia de lanzamiento de Moonvalley.

“A medida que la relación entre los medios y la IA continúa evolucionando rápidamente, y no sin escepticismo, Moonvalley pretende establecerse como el socio más confiable para las organizaciones de medios”, dijo.

¿Pero puede Moonvalley realmente competir?

Como se mencionó anteriormente, Google, Meta y muchos otros están buscando videos generativos, con diversos grados de consideración ética. Los gigantes tecnológicos están cambiando sus términos de uso para obtener una ventaja de datos: Google está entrenando su modelo de video Veo en videos de YouTube, mientras que Meta está entrenando sus modelos en contenido de Instagram y Facebook.

Moonvalley espera atraer a marcas y casas creativas, pero algunos proveedores ya han logrado avances significativos allí. Runway firmó recientemente un acuerdo con Lionsgate para entrenar un modelo personalizado en el catálogo de películas del estudio; Stability AI reclutó al director de “Avatar”, James Cameron, para su junta directiva; y OpenAI se asoció con marcas y directores independientes para mostrar el potencial de Sora.

Luego está Adobe, que va tras el mercado objetivo de Moonvalley: artistas y creadores de contenidos que quieren herramientas de vídeo generativo “más seguras” (al menos desde una perspectiva legal).

El desafío de Moonvalley es triple. Tendrá que convencer a los clientes de que sus herramientas son competitivas con las que ya existen. Será necesario construir suficiente pista para poder entrenar y servir a modelos de seguimiento. Y tendrá que asegurar una base leal de clientes que no cambiarán a otro proveedor en cualquier momento.

Es comprensible que muchos artistas y creadores desconfíen de la IA generativa, ya que amenaza con trastocar la industria del cine y la televisión. Un estudio de 2024 encargado por Animation Guild, un sindicato que representa a los animadores y caricaturistas de Hollywood, estima que más de 100.000 trabajos de cine, televisión y animación en Estados Unidos se verán afectados por la IA para 2026.

“Nuestro objetivo es crear herramientas para ayudar a los creadores a crear contenido cada vez más grandioso e inmersivo”, dijo Talukdar cuando le pregunté sobre el riesgo de que los creativos pierdan sus trabajos debido a la IA generativa.

En el frente de las pistas, Moonvalley logró algunos avances: la compañía recaudó recientemente 70 millones de dólares en una ronda de financiación inicial codirigida por General Catalyst y Khosla Ventures, con la participación de Bessemer Ventures. Eso financiará la investigación y el desarrollo y la contratación de Moonvalley.

Actualmente, la empresa cuenta con unos 30 empleados que anteriormente trabajaron en DeepMind, Meta, Microsoft y TikTok, dice Talukdar.

“Lo que nos diferencia de otras empresas es el enfoque en el producto”, añadió. “Si bien el núcleo de nuestra empresa es la formación de modelos generativos de última generación, nuestro objetivo es crear herramientas creativas profundamente capaces para convertir estos modelos en equipos potentes para creadores, estudios y marcas profesionales”.

Talukdar dice que el plan es lanzar el primer modelo de Moonvalley a finales de este año. La compañía tendrá que darse prisa si espera superar los próximos lanzamientos de Black Forest Labs, Luma Labs, Midjourney y el elefante en la habitación.

Leer más
Back to top button