Vista3D: un nuevo marco de IA para la generación rápida y detallada de objetos 3D a partir de una sola imagen mediante el uso de valores de difusión anteriores

La generación previa de modelos 3D a partir de imágenes individuales se enfrentaba a desafíos. Las arquitecturas de retroalimentación generaban objetos simplistas debido a los datos 3D limitados. La dispersión gaussiana proporcionaba una geometría rápida y gruesa, pero carecía de detalles finos y de consistencia visual. El umbral de gradiente ingenuo causaba una densificación excesiva y geometrías hinchadas. Los métodos de regularización mejoraban la precisión, pero la eliminación generaba problemas estructurales. Los estudios de usuarios revelaron problemas de calidad y consistencia visual, lo que enfatizaba la necesidad de marcos robustos. La disponibilidad de datos, la conservación de detalles y las limitaciones de consistencia resaltaron la necesidad de enfoques avanzados. Vista3D aborda estos desafíos, presentando un marco que equilibra la velocidad y la calidad en la generación de modelos 3D a partir de imágenes individuales.

Investigadores de la Universidad Nacional de Singapur y Huawei Technologies Ltd presentan Vista3D, un nuevo marco para generar representaciones 3D a partir de una única imagen. El sistema aborda el desafío de revelar las dimensiones ocultas de los objetos mediante un enfoque de dos fases: una fase gruesa que utiliza el método Gaussian Splatting para la geometría inicial y una fase fina que refina la geometría mediante la extracción y optimización de la función de distancia con signo. Este método mejora la calidad del modelo al capturar los aspectos visibles y ocultos de los objetos. Vista3D armoniza los antecedentes de difusión que tienen en cuenta el 2D y el 3D, equilibrando la coherencia y la diversidad. El marco logra una generación 3D rápida y consistente en cinco minutos y permite la edición dirigida por el usuario a través de indicaciones de texto, lo que potencialmente hace avanzar campos como los juegos y la realidad virtual.

La metodología de Vista3D para generar objetos 3D a partir de imágenes individuales emplea un enfoque de varias etapas. El proceso comienza con la generación de geometría básica mediante el método 3D Gaussian Splatting, que proporciona una estructura 3D inicial rápida. Esta geometría se perfecciona mediante la transformación en campos de distancia con signo y la introducción de una representación de isosuperficie diferenciable. Estos pasos mejoran la precisión de la superficie y el atractivo visual. El marco incorpora valores previos de difusión para permitir la generación de diversos objetos 3D, utilizando restricciones de magnitud de gradiente y composición basada en ángulos para mantener la coherencia mientras se explora la diversidad de objetos.

La metodología sigue una estrategia de generación de malla de gruesa a fina, empleando la regularización de densificación top-K. Este enfoque refina progresivamente la geometría inicial para lograr resultados de alta fidelidad. Al combinar técnicas avanzadas de generación de geometría, refinamiento y mapeo de texturas, Vista3D aborda los desafíos del modelado 3D tradicional. El uso innovador de representaciones y valores previos de difusión en el marco mejora el detalle, la consistencia y la diversidad de resultados, lo que da como resultado modelos 3D de alta calidad generados de manera eficiente a partir de imágenes individuales. Este enfoque integral demuestra avances significativos en la generación de objetos 3D a partir de entradas 2D limitadas.

Los resultados del marco Vista3D demuestran avances significativos en la generación de objetos 3D a partir de imágenes individuales. Vista3D-L logró un rendimiento de vanguardia en todas las métricas, incluidas PSNR, SSIM y LPIPS, superando a los métodos existentes. Las puntuaciones de similitud CLIP de 0,831 para Vista3D-S y 0,868 para Vista3D-L indican una alta consistencia entre las vistas 3D generadas y las imágenes de referencia. El marco genera objetos 3D en aproximadamente 5 minutos, una mejora notable en el tiempo de procesamiento. Las evaluaciones cualitativas revelan una calidad de textura superior, particularmente en escenarios con vistas de referencia menos informativas. Los estudios de ablación confirman la eficacia de los componentes clave, mientras que las comparaciones con métodos como One-2-3-45 y Wonder3D resaltan el rendimiento superior de Vista3D en textura, calidad de geometría y consistencia de vista.

En conclusión, el marco Vista3D introduce un enfoque de grueso a fino para explorar aspectos 3D de imágenes individuales, lo que permite la edición dirigida por el usuario y mejora la calidad de generación a través de leyendas de imágenes. El proceso eficiente comienza con el splatting gaussiano para la geometría gruesa, seguido del refinamiento utilizando la representación de isosuperficies y texturas desenredadas, produciendo mallas texturizadas en aproximadamente 5 minutos. La composición angular de los valores previos de difusión mejora la diversidad al tiempo que mantiene la consistencia 3D. La estrategia de densificación top-k y las técnicas de regularización contribuyen a la geometría precisa y los detalles finos. Vista3D supera los métodos anteriores en realismo y detalle, equilibrando el tiempo de generación y la calidad de la malla. Los autores anticipan que su trabajo inspirará más avances en la investigación de generación 3D de imágenes individuales.

Echa un vistazo a la Papel y GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Shoaib Nazir es pasante de consultoría en MarktechPost y ha completado su doble titulación de máster en tecnología en el Instituto Indio de Tecnología (IIT) de Kharagpur. Siendo un apasionado de la ciencia de datos, le interesan especialmente las diversas aplicaciones de la inteligencia artificial en diversos ámbitos. Shoaib está impulsado por el deseo de explorar los últimos avances tecnológicos y sus implicaciones prácticas en la vida cotidiana. Su entusiasmo por la innovación y la resolución de problemas del mundo real alimenta su continuo aprendizaje y contribución al campo de la IA.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)