DeepL lanza DeepL Voice, traducciones en tiempo real basadas en texto de voces y vídeos

DeepL se ha hecho un nombre con la traducción de textos en línea que, según afirma, es más matizada y precisa que servicios de empresas como Google, una propuesta que ha catapultado a la startup alemana a una valoración de 2.000 millones de dólares y a más de 100.000 clientes de pago. Ahora, a medida que el entusiasmo por los servicios de IA continúa creciendo, se está agregando otro modo a la plataforma: la voz. Los usuarios ahora podrán utilizar DeepL para escuchar a alguien hablando en un idioma y traducirlo automáticamente a otro, en tiempo real.

Inglés, alemán, japonés, coreano, sueco, holandés, francés, turco, polaco, portugués, ruso, español e italiano son los idiomas hablados que DeepL puede “escuchar” hoy en día. Mientras tanto, los subtítulos traducidos están disponibles para los 33 idiomas actualmente admitidos por DeepL Translator.

Actualmente, DeepL Voice no llega a entregar el resultado como un archivo de audio o video: el servicio está dirigido a conversaciones y videoconferencias en vivo en tiempo real y se presenta como texto. En el primero de ellos, puede configurar sus traducciones para que aparezcan como ‘espejos’ en un teléfono inteligente (la idea es que coloquen el teléfono entre ustedes en una mesa de reuniones para que cada lado vea las palabras traducidas) o como una transcripción que compartes lado a lado con alguien. El servicio de videoconferencia ve las traducciones apareciendo como subtítulos.

Eso podría ser algo que cambie con el tiempo, insinuó en una entrevista Jarek Kutylowski, fundador y director ejecutivo de la compañía (en la foto de arriba). Este es el primer producto de voz de DeepL, pero es poco probable que sea el último. “(La voz) es donde la traducción se desarrollará el próximo año”, añadió.

Hay otras pruebas que respaldan esa afirmación. Google, uno de los mayores competidores de DeepL, también comenzó a incorporar subtítulos traducidos en tiempo real en su servicio de videoconferencia Meet. Y hay una multitud de nuevas empresas de inteligencia artificial que crean servicios de traducción de voz. Incluyen esfuerzos del especialista en voz en inteligencia artificial Eleven Labs (Eleven Labs Dubbing) y otros como Panjaya, que crea traducciones utilizando voces “deepfake” y videos que coinciden con el audio. Este último utiliza la API de Eleven Labs y, según Kutylowski, Eleven Labs está utilizando tecnología de (lo adivinaste) DeepL para impulsar su servicio de traducción.

La salida de audio no es lo único que aún tiene que lanzarse.

Por el momento, tampoco existe una API para el producto Voice. El negocio principal de DeepL se centra en B2B y Kutylowski dijo que la compañía está trabajando con socios y clientes directamente para utilizarlo.

Tampoco hay una amplia variedad de integraciones: el único servicio de videollamadas que admite subtítulos de DeepL actualmente es Teams, que “cubre a la mayoría de nuestros clientes”, dijo Kutylowski. No se sabe cuándo o si Zoom, o Google Meet, incorporarán DeepL Voice en el futuro.

Los usuarios de DeepL sentirán que el producto tardará mucho en llegar, no solo porque hemos estado inundados de una gran cantidad de otros servicios de voz de IA destinados a la traducción. Kutylowski dijo que esta ha sido la solicitud número uno de los clientes desde 2017, el año en que se lanzó DeepL.

Parte del motivo de la espera es que DeepL ha adoptado un enfoque bastante deliberado a la hora de desarrollar su producto. A diferencia de muchos otros en el mundo de las aplicaciones de IA que se apoyan y modifican los grandes modelos de lenguaje de otras empresas, el objetivo de DeepL es desarrollar su servicio desde cero. En julio, la compañía lanzó un nuevo LLM optimizado para traducciones que, según afirma, supera a GPT-4, Google y Microsoft, sobre todo porque su propósito principal es la traducción. En torno a eso, también ha seguido mejorando la calidad de su producción escrita y su glosario.

De manera similar, uno de los puntos de venta únicos de DeepL Voice es que funcionará en tiempo real, lo cual es importante dado que muchos servicios de “traducción de IA” en el mercado actualmente funcionan con retardo, lo que los hace más difíciles o imposibles de usar en situaciones en vivo. , que es el caso de uso que DeepL aborda específicamente. Kutylowski insinuó que esta era otra razón detrás de por qué este nuevo producto de procesamiento de voz se centra en las traducciones basadas en texto: se pueden computar y producir muy rápido, mientras que el procesamiento y la arquitectura de inteligencia artificial todavía tienen un camino por recorrer antes de poder producir audio. y vídeo tan rápido.

Si bien es posible imaginar que las videoconferencias y las reuniones probablemente sean casos de uso para la voz DeepL, Kutylowski señaló que otro importante que la compañía está imaginando es en la industria de servicios, donde los trabajadores de primera línea en, por ejemplo, restaurantes podrían usar el servicio para ayudar a comunicarse. con los clientes más fácilmente.

Esto podría resultar útil, pero también resalta uno de los puntos más difíciles del servicio. En un mundo en el que de repente todos somos mucho más conscientes de la protección de datos y nos preocupamos por cómo los nuevos servicios y plataformas están cooptando información privada o de propiedad exclusiva, queda por ver hasta qué punto las personas estarán interesadas en que sus voces sean recogidas y utilizadas en Por aquí.

Kutylowski insistió en que, aunque las voces viajarán a sus servidores para ser traducidas (el procesamiento no ocurre en el dispositivo), sus sistemas no retienen nada ni lo utilizan para capacitar a sus LLM, y que en última instancia trabajará con sus clientes para hacer asegúrese de que no violen el RGPD ni ninguna otra normativa de protección de datos.