Apple AI lanza Depth Pro: un modelo básico para la estimación de profundidad monocular métrica de disparo cero

Introducción

Los métodos tradicionales de estimación de profundidad a menudo requieren metadatos, como los intrínsecos de la cámara, o implican pasos de procesamiento adicionales que limitan su aplicabilidad en escenarios del mundo real. Estas limitaciones dificultan la producción eficiente de mapas de profundidad precisos, especialmente para diversas aplicaciones como realidad aumentada, realidad virtual y edición avanzada de imágenes. Para abordar estos desafíos, Apple presentó Depth Pro, un modelo avanzado de IA diseñado para la estimación de profundidad monocular métrica de disparo cero, remodelando el campo de visión 3D al proporcionar mapas de profundidad nítidos y de alta resolución en una fracción de segundo.

Cerrando la brecha en la estimación de profundidad

Depth Pro tiene como objetivo cerrar la brecha en los métodos tradicionales al producir mapas de profundidad métricos con escala absoluta en condiciones de disparo cero, lo que significa que puede crear información de profundidad detallada a partir de una imagen arbitraria sin capacitación adicional sobre datos específicos del dominio. Inspirado en trabajos anteriores como MiDaS, Depth Pro funciona de manera eficiente, generando un mapa de profundidad de 2,25 megapíxeles en solo 0,3 segundos en una GPU V100 estándar, lo que demuestra su practicidad para aplicaciones en tiempo real como edición de imágenes, realidad virtual y realidad aumentada.

Arquitectura y Formación

La arquitectura de Depth Pro se centra en un transformador de visión (ViT) de múltiples escalas diseñado para equilibrar la captura del contexto de imagen global con la preservación de estructuras finas. A diferencia de los transformadores convencionales, Depth Pro aplica una columna vertebral de ViT simple en múltiples escalas y fusiona predicciones en una única salida de alta resolución, beneficiándose de los avances continuos en el preentrenamiento de ViT. Este enfoque de múltiples escalas garantiza una delimitación nítida de los límites incluso en escenarios complejos que involucran estructuras delgadas como cabello y pelaje, que suelen ser un desafío para los modelos de estimación de profundidad monoculares.

Para entrenar el modelo, Apple utilizó conjuntos de datos tanto reales como sintéticos, implementando un plan de estudios de capacitación de dos etapas. Inicialmente, Depth Pro se capacitó en una combinación diversa de conjuntos de datos sintéticos y del mundo real para lograr un aprendizaje de funciones sólido que se generalice bien en todos los dominios. En la segunda etapa, se utilizaron conjuntos de datos sintéticos con información sobre el terreno con precisión de píxeles para mejorar los mapas de profundidad, centrándose en el rastreo de límites de alta calidad. Este plan de estudios único ayudó a Depth Pro a lograr una precisión de límites superior, eliminando artefactos como “píxeles voladores” que degradan la calidad de la imagen en otros modelos.

Estimación de la distancia focal de disparo cero

Una de las características notables de Depth Pro es su capacidad de estimación de la distancia focal de disparo cero. A diferencia de muchos métodos anteriores que se basan en elementos intrínsecos de la cámara conocidos, Depth Pro estima la distancia focal directamente a partir de las características de la red de profundidad, lo que mejora su versatilidad para diversas aplicaciones del mundo real. Esto permite que el modelo sintetice vistas a partir de imágenes arbitrarias, como especificar una distancia deseada para la representación, sin requerir metadatos.

Evaluación de desempeño

Las contribuciones del modelo se validan mediante extensos experimentos, lo que demuestra un rendimiento superior en comparación con métodos anteriores en múltiples dimensiones. Depth Pro sobresale particularmente en precisión de límites y latencia, y las evaluaciones muestran que ofrece una precisión incomparable en el trazado de estructuras y límites finos, superando significativamente a otros modelos de última generación como Marigold, Depth Anything v2 y Metric3D v2. Por ejemplo, Depth Pro produjo mapas de profundidad más nítidos y trazó con mayor precisión los límites de oclusión, lo que resultó en una síntesis de vistas novedosas y más limpias en comparación con otros métodos.

Eficiencia y limitaciones

La eficiencia del transformador de visión se destaca aún más en la comparación de velocidades: Depth Pro es uno o dos órdenes de magnitud más rápido que los modelos que se centran en predicciones de límites detalladas, como Marigold y PatchFusion. Gestiona esto sin comprometer la precisión, lo que lo hace ideal para aplicaciones en tiempo real como generación de imágenes interactivas y experiencias de realidad aumentada.

A pesar de su sólido rendimiento, Depth Pro tiene algunas limitaciones. El modelo lucha con superficies translúcidas y dispersión volumétrica, donde definir la profundidad de un solo píxel se vuelve ambiguo. No obstante, sus avances marcan un importante paso adelante en la estimación de la profundidad monocular, proporcionando un modelo básico sólido que es a la vez altamente preciso y computacionalmente eficiente.

Conclusión

En general, la combinación de Depth Pro de estimación de profundidad métrica de disparo cero, alta resolución, trazado de límites nítido y capacidad de procesamiento en tiempo real lo posiciona como un modelo líder para una variedad de aplicaciones en visión 3D, desde edición de imágenes hasta realidad virtual. Al eliminar la necesidad de metadatos y permitir mapas de profundidad nítidos y detallados en menos de un segundo, Depth Pro establece un nuevo estándar para la tecnología de estimación de profundidad, lo que la convierte en una herramienta valiosa para desarrolladores e investigadores en el campo de la visión por computadora.

Mira el Papel y Modelo en HF. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.