Simplificación de los modelos de difusión: ajuste fino para una estimación de profundidad más rápida y precisa

La estimación de profundidad monocular (MDE) desempeña un papel importante en diversas aplicaciones, incluidas la edición de imágenes y videos, la reconstrucción de escenas, la síntesis de vistas novedosas y la navegación robótica. Sin embargo, esta tarea plantea desafíos significativos debido a la ambigüedad inherente de la distancia de escala, lo que la hace ineficaz. Los métodos basados ​​en el aprendizaje deben utilizar un conocimiento semántico sólido para lograr resultados precisos y superar esta limitación. Los avances recientes han visto la adaptación de grandes modelos de difusión para MDE, tratando la predicción de profundidad como un problema de generación de imágenes condicional, pero sufren de velocidades de inferencia lentas. Las demandas computacionales de evaluar repetidamente grandes redes neuronales durante la inferencia se han convertido en una preocupación importante en el campo.

Recientemente, se han desarrollado varios métodos para abordar los desafíos de la MDE. Uno de estos métodos es la estimación de profundidad monocular, que predice la profundidad en función de los píxeles. Otro método es la estimación de profundidad métrica, que proporciona una representación más detallada, pero contiene complejidades adicionales debido a las variaciones de la longitud focal de la cámara. Además, la estimación normal de la superficie ha evolucionado desde enfoques basados ​​en el aprendizaje temprano hasta métodos complejos de aprendizaje profundo. Recientemente, se han aplicado modelos de difusión a la estimación de la geometría, y algunos métodos producen mapas normales y de profundidad de múltiples vistas para objetos individuales. Los enfoques de estimación de profundidad a nivel de escena, como VPD, han utilizado la difusión estable, pero la generalización sigue siendo un desafío para entornos complejos y del mundo real.

Investigadores de la Universidad RWTH de Aachen y la Universidad Tecnológica de Eindhoven presentaron una solución innovadora para la ineficiencia de la MDE basada en difusión. Desarrollaron un modelo fijo tomando un defecto inadvertido antiguo en el proceso de inferencia, donde el modelo fijo funciona de manera comparable a las mejores configuraciones reportadas y es 200 veces más rápido. Se implementa un ajuste fino de extremo a extremo con pérdidas específicas de la tarea sobre su modelo de un solo paso para mejorar el rendimiento. Este método da como resultado un modelo determinista que supera a todos los demás modelos de estimación normal y de profundidad basados ​​en difusión en los puntos de referencia comunes de disparo cero. Además, este protocolo de ajuste fino funciona directamente en Stable Diffusion, logrando un rendimiento comparable al de los modelos de última generación.

El método propuesto utiliza dos conjuntos de datos sintéticos para el entrenamiento: Hypersim para escenas fotorrealistas en interiores y Virtual KITTI 2 para escenarios de conducción con el fin de proporcionar anotaciones de alta calidad. Para la evaluación, se utiliza un conjunto diverso de puntos de referencia, incluidos NYUv2 y ScanNet para entornos interiores, ETH3D y DIODE para escenas mixtas en interiores y exteriores, y KITTI para escenarios de conducción en exteriores. La implementación se basa en el punto de control oficial de Marigold para la estimación de profundidad, mientras que se utiliza una configuración similar para la estimación normal, codificando mapas normales como vectores 3D en canales de color. El equipo sigue los hiperparámetros de Marigold, entrenando todos los modelos durante 20.000 iteraciones utilizando el optimizador AdamW.

Los resultados demuestran que el proceso de eliminación de ruido de varios pasos de Marigold no está funcionando como se esperaba, y el rendimiento disminuye a medida que aumentan los pasos de eliminación de ruido. El programador DDIM fijo demostró un rendimiento superior en todos los recuentos de pasos. Las comparaciones entre Marigold original, su variante del modelo de consistencia latente y los modelos de un solo paso de los investigadores muestran que el programador DDIM fijo logra resultados comparables o mejores en un solo paso sin agrupamiento. Además, el ajuste fino de extremo a extremo de Marigold supera a todas las configuraciones anteriores en un solo paso sin agrupamiento. Sorprendentemente, el ajuste fino directo de Stable Diffusion produce resultados similares a los del modelo preentrenado con Marigold.

En resumen, los investigadores introdujeron una solución a la ineficiencia del MDE basado en difusión, revelando una falla crítica en la implementación del programador DDIM. Esto desafía las conclusiones anteriores en la estimación normal y de profundidad monocular basada en difusión. Los investigadores demostraron que el simple ajuste fino de extremo a extremo supera a las arquitecturas y los procesos de entrenamiento más complejos sin perder el respaldo de la hipótesis de que el preentrenamiento de difusión proporciona excelentes valores previos para las tareas geométricas. Los modelos resultantes permiten una inferencia precisa en un solo paso y hacen posible el uso de datos a gran escala y métodos avanzados de autoentrenamiento. Estos hallazgos sientan las bases para futuros avances en los modelos de difusión, lo que permite obtener valores previos confiables y un mejor rendimiento en la estimación de geometría.


Echa un vistazo a la Papel y GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Leer más
Back to top button