Meta AI presenta MovieGen: una serie de nuevos modelos de IA de Advanced Media Foundation

El equipo de investigación de Meta AI ha presentado MovieGen, un conjunto de modelos básicos de medios de última generación (SotA) que revolucionarán la forma en que generamos e interactuamos con el contenido multimedia. Este genial desarrollo abarca innovaciones en la generación de texto a video, personalización y edición de video, al mismo tiempo que admite la creación de videos personalizados utilizando imágenes proporcionadas por el usuario. En el centro de MovieGen se encuentran diseños arquitectónicos avanzados, metodologías de capacitación y técnicas de inferencia que permiten la generación de medios escalables como nunca antes.

Características clave de MovieGen

Generación de vídeo de alta resolución

Una de las características destacadas de MovieGen es su capacidad para generar Vídeos de 16 segundos a resolución 1080p y 16 fotogramas por segundo (fps)completo con audio sincronizado. Esto es posible gracias a una colosal modelo de 30 mil millones de parámetros que aprovecha técnicas de difusión latente de vanguardia. El modelo se destaca en la producción de videos coherentes y de alta calidad que se alinean perfectamente con indicaciones textuales, abriendo nuevos horizontes en la creación de contenido y la narración.

Síntesis de audio avanzada

Además de la generación de vídeo, MovieGen introduce una modelo de 13 mil millones de parámetros Diseñado específicamente para síntesis de vídeo/texto a audio. Este modelo genera Audio cinematográfico de 48 kHz que está sincronizado con la entrada visual y puede manejar longitudes variables de medios de hasta 30 segundos. Al aprender asociaciones visual-audio, el modelo puede crear sonidos y música diegéticos y no diegéticos, mejorando el realismo y el impacto emocional de los medios generados.

Manejo versátil del contexto de audio

Las capacidades de generación de audio de MovieGen se mejoran aún más a través de predicción de audio enmascarada entrenamiento, que permite que el modelo maneje diferentes contextos de audio, incluida la generación, extensión y relleno. Esto significa que el mismo modelo se puede utilizar para una variedad de tareas de audio sin la necesidad de modelos especializados separados, lo que lo convierte en una herramienta versátil para los creadores de contenido.

Entrenamiento e inferencia eficientes

MovieGen utiliza el Objetivo de coincidencia de flujo para entrenamiento e inferencia eficientes, combinados con una arquitectura de transformador de difusión (DiT). Este enfoque acelera el proceso de capacitación y reduce los requisitos computacionales, lo que permite una generación más rápida de contenido multimedia de alta calidad.

Detalles técnicos

Difusión latente con DAC-VAE

El núcleo técnico de las capacidades de audio de MovieGen es el uso de Difusión latente con DAC-VAE. Esta técnica codifica audio de 48 kHz a 25 Hz, logrando una mayor calidad a una velocidad de cuadros más baja en comparación con métodos tradicionales como Encodec. El resultado es un audio nítido y de alta fidelidad que coincide con la calidad cinematográfica de los vídeos generados.

Mejoras en DAC-VAE

El modelo DAC-VAE incorpora varias mejoras para mejorar la reconstrucción de audio a velocidades comprimidas:

  • Transformada de Fourier de tiempo corto (STFT) multiescala: Esto permite una mejor captura de información tanto temporal como de dominio de frecuencia.
  • Funciones de activación de la serpiente: Ayudan a reducir los artefactos y mejorar la periodicidad de las señales de audio.
  • Eliminación de la cuantificación del vector residual (RVQ): Al eliminar RVQ y centrarse en el entrenamiento del codificador automático variacional (VAE), el modelo logra una calidad de reconstrucción superior.

Aplicaciones e implicaciones

La introducción de MovieGen marca un importante avance en la tecnología de generación de medios. Al combinar la generación de video de alta resolución con síntesis de audio avanzada, MovieGen permite la creación de experiencias multimedia inmersivas y personalizadas. Los creadores de contenido pueden aprovechar estas herramientas para:

  • Generación de texto a video: Elaboración de vídeos directamente a partir de descripciones textuales.
  • Personalización de vídeo: Personalización de vídeos utilizando imágenes y contenido proporcionados por el usuario.
  • Edición de vídeo: Mejora y modificación de vídeos existentes con nuevos elementos audiovisuales.

Estas capacidades tienen implicaciones de gran alcance para industrias como el entretenimiento, la publicidad, la educación y más, donde el contenido dinámico y personalizado tiene una demanda cada vez mayor.

Conclusión

MovieGen de Meta AI representa un avance monumental en el campo de la generación de medios. Con sus modelos sofisticados y técnicas innovadoras, establece un nuevo estándar de lo que es posible en la creación automatizada de contenido. A medida que la IA continúa evolucionando, herramientas como MovieGen desempeñarán un papel fundamental en la configuración del futuro de los medios, ofreciendo oportunidades sin precedentes para la creatividad y la expresión.


Mira el Papel y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Leer más
Back to top button