Dirigido por un fundador que vendió una startup de vídeos a Apple, Panjaya utiliza técnicas de deepfake para aprovechar el doblaje de vídeos.
Existe una gran oportunidad para la IA generativa en el mundo de la traducción, y una startup llamada Panjaya está llevando el concepto al siguiente nivel: una herramienta de doblaje hiperrealista basada en IA para vídeos que recrea la voz original de una persona que habla el nuevo idioma. , en el que el vídeo y los movimientos físicos del hablante se modifican automáticamente para coincidir de forma natural con los nuevos patrones de habla.
Después de permanecer en secreto durante los últimos tres años, la startup presenta BodyTalk, la primera versión de su producto, junto con su primera financiación externa de 9,5 millones de dólares.
Panjaya es una creación de Hilik Shani y Ariel Shalom, dos especialistas en aprendizaje profundo que han pasado la mayor parte de su vida profesional trabajando silenciosamente en tecnología de aprendizaje profundo para el gobierno israelí y ahora son, respectivamente, el director general y el director de tecnología de la startup. Colgaron sus sombreros de G-man en 2021 con la picazón de las startups, y hace un año y medio, se les unió Guy Piekarz como CEO.
Piekarz no es uno de los fundadores de Panjaya, pero es un nombre notable a tener en cuenta: en 2013, vendió una startup que hizo encontrado a Apple. Matcha, como se llamó la startup, fue uno de los primeros y populares jugadores en el descubrimiento y recomendación de videos en streaming, y fue adquirido durante los primeros días de la estrategia de TV y streaming de Apple, cuando eran más rumores que productos reales. Matcha se inició y se vendió por una canción: entre 10 y 15 millones de dólares, una cantidad modesta teniendo en cuenta el importante impulso que Apple acabó dando a los medios de streaming.
Piekarz permaneció en Apple durante casi una década construyendo Apple TV y luego su vertical deportiva. Luego, conoció Panjaya a través de Viola Ventures, uno de sus patrocinadores (otros incluyen a R-Squared Ventures, el cofundador y director ejecutivo de JFrog, Shlomi Ben Haim, Chris Rice, Guy Schory, Ryan Floyd de Storm Ventures, Ali Behnam de Riviera Partners). y Oded Vardi.
“Para entonces ya había dejado Apple y estaba planeando hacer algo completamente diferente”, dijo Piekarz. “Sin embargo, ver una demostración de la tecnología me dejó boquiabierto y el resto es historia”.
BodyTalk es interesante por cómo trae simultáneamente al marco varias piezas de tecnología que juegan con diferentes aspectos de los medios sintéticos.
Comienza con la traducción basada en audio que actualmente puede ofrecer traducciones en 29 idiomas. Luego, la traducción se pronuncia con una voz que imita al hablante original, que a su vez se configura en una versión del video original donde los labios y otros movimientos del hablante se modifican para adaptarse a las nuevas palabras y frases. Todo esto se crea automáticamente en los videos después de que los usuarios los suben a la plataforma, que también viene con un panel que incluye más herramientas de edición. Los planes futuros incluyen una API, además de acercarse al procesamiento en tiempo real. (En este momento, BodyTalk es “casi en tiempo real” y toma minutos para procesar videos, dijo Piekarz).
“Estamos utilizando lo mejor de su clase donde lo necesitamos”, dijo Piekarz sobre el uso por parte de la empresa de grandes modelos de lenguaje de terceros y otras herramientas. “Y estamos construyendo nuestros propios modelos de IA donde el mercado realmente no tiene una solución”.
Un ejemplo de ello es la sincronización de labios de la empresa, continuó. “Todo nuestro motor de sincronización de labios es de cosecha propia de nuestro equipo de investigación de IA, porque no hemos encontrado nada que alcance ese nivel y calidad de múltiples altavoces, ángulos y todos los casos de uso empresarial que queremos respaldar”.
Por el momento, su atención se centra únicamente en B2B; Entre sus clientes se incluyen JFrog y la organización de medios TED. La compañía tiene planes de expandirse aún más en los medios, específicamente en áreas como deportes, educación, marketing, atención médica y medicina.
Los videos de traducción resultantes son muy extraños, no muy diferentes de lo que se obtiene con los deepfakes, aunque Piekarz se estremece ante ese término, que ha adquirido connotaciones negativas a lo largo de los años que son exactamente lo opuesto al mercado al que se dirige la startup.
“‘Deepfake’ no es algo que nos interese”, dijo. “Estamos buscando evitar todo ese nombre”. En cambio, dijo, piense en Panjaya como parte de la “categoría real profunda”.
Al apuntar únicamente al mercado B2B y controlar quién accede a sus herramientas, la empresa está creando “barandillas” alrededor de la tecnología para protegerla contra el uso indebido, añadió. También cree que a largo plazo se crearán más herramientas, incluidas marcas de agua, para ayudar a detectar cuándo se ha modificado algún vídeo para crear medios sintéticos, tanto legítimos como nefastos. “Definitivamente queremos ser parte de eso y no permitir la desinformación”, dijo.
La letra no tan pequeña
Hay una serie de nuevas empresas que compiten con Panjaya en el área más amplia de la traducción de videos basada en inteligencia artificial, incluidos grandes nombres como Vimeo y Eleven Labs, así como actores más pequeños como Speechify y Synthesis. Para todos ellos, encontrar formas de mejorar el funcionamiento del doblaje es como nadar contra corriente. Esto se debe a que los subtítulos se han convertido en una parte muy estándar de cómo se consumen los vídeos hoy en día.
En la televisión, esto se debe a una serie de razones, como altavoces deficientes, ruido de fondo en nuestras vidas ocupadas, actores que murmuran, presupuestos de producción limitados y más efectos de sonido. CBS encontró en una encuesta entre televidentes estadounidenses que más de la mitad de ellos mantenían subtítulos “algunos (21%) o todos (34%) del tiempo”.
Pero a algunos les encantan los subtítulos solo porque son entretenidos de leer, y se ha creado todo un culto en torno a eso.
En las redes sociales y otras aplicaciones, los subtítulos simplemente se integran en la experiencia. TikTok, por ejemplo, comenzó en noviembre de 2023 a activar los subtítulos de forma predeterminada en todos los vídeos.
De todos modos, sigue existiendo un enorme mercado internacional para el contenido doblado, e incluso si a menudo se piensa que el inglés es la lengua franca de Internet, hay evidencia de grupos de investigación como CSA de que el contenido entregado en idiomas nativos genera una mayor participación, especialmente en el contexto B2B. El argumento de Panjaya es que un contenido más natural en el idioma nativo podría funcionar aún mejor.
Algunos de sus clientes parecen apoyar esa teoría. TED dice que las charlas dobladas con las herramientas de Panjaya han tenido un aumento de vistas del 115%, y las tasas de finalización se duplicaron para los videos traducidos.