Lotus: un modelo de base visual basado en difusión para la predicción de geometría densa

La predicción de geometría densa en visión por computadora implica estimar propiedades como la profundidad y las normales de superficie para cada píxel de una imagen. La predicción precisa de la geometría es fundamental para aplicaciones como la robótica, la conducción autónoma y la realidad aumentada, pero los métodos actuales a menudo requieren una formación exhaustiva en conjuntos de datos etiquetados y tienen dificultades para generalizarse en diversas tareas.

Los métodos existentes para la predicción de geometría densa generalmente se basan en enfoques de aprendizaje supervisado que utilizan redes neuronales convolucionales (CNN) o arquitecturas transformadoras. Estos métodos requieren grandes cantidades de datos etiquetados y, a menudo, no funcionan bien en escenarios de disparo cero, donde se espera que los modelos se generalicen a nuevas tareas sin capacitación específica para ellas. Además, la mayoría de los modelos actuales están diseñados para tareas específicas de predicción de geometría y carecen de versatilidad para adaptarse a otras tareas relacionadas.

Para superar estos desafíos, un equipo de investigadores de HKUST (GZ), la Universidad de Adelaida, el Laboratorio Arca de Noé de Huawei y HKU han presentado Lotus, un novedoso modelo de base visual basado en difusión que tiene como objetivo mejorar la predicción de geometría densa de alta calidad. Lotus está diseñado para manejar diversas tareas de percepción de geometría, como la estimación normal y de profundidad de disparo cero, utilizando un enfoque unificado. A diferencia de los modelos tradicionales que se basan en arquitecturas de tareas específicas, Lotus aprovecha los procesos de difusión para generar predicciones visuales, lo que lo hace más flexible y capaz de adaptarse a diversas tareas de predicción densas sin requerir un reentrenamiento extenso.

Lotus es un modelo de base visual basado en difusión, lo que significa que utiliza un proceso de difusión probabilística para generar predicciones geométricas detalladas a partir de entradas visuales. En este modelo, las imágenes se transforman a través de una serie de etapas a las que se les agrega ruido y luego se eliminan gradualmente para generar predicciones de las normales de profundidad y superficie. Este enfoque permite a Lotus capturar ricos detalles geométricos que a menudo pasan desapercibidos en los modelos convencionales basados en CNN.

Los investigadores diseñaron Lotus para que funcione en una configuración de disparo cero, lo que le permite generalizarse a nuevas tareas de predicción de geometría sin la necesidad de capacitación específica para la tarea. Esto convierte a Lotus en una herramienta versátil para una predicción visual densa, adecuada para diversas aplicaciones donde la adaptabilidad es clave. En experimentos, Lotus logró un rendimiento de vanguardia (SoTA) en dos tareas principales de percepción de geometría: profundidad de disparo cero y estimación normal. El modelo superó las líneas de base existentes, lo que demuestra su eficacia a la hora de producir predicciones geométricas de alta calidad incluso en escenarios desafiantes e invisibles.

Además de lograr un alto rendimiento, Lotus también viene con herramientas fáciles de usar para explorar sus capacidades. Los autores han lanzado dos aplicaciones Gradio en Hugging Face Spaces, proporcionando una forma interactiva para que los usuarios experimenten con Lotus y vean su rendimiento con datos del mundo real.

En general, Lotus representa un avance significativo en el campo de la predicción de geometría densa. Al aprovechar un enfoque basado en la difusión, supera eficazmente las limitaciones de los métodos tradicionales y proporciona una solución flexible y potente para diversas tareas de predicción visual. Su impresionante rendimiento de disparo cero resalta su potencial como modelo de base visual para una amplia gama de aplicaciones.

Mira el Papel y Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.