DELTA: un novedoso método de IA que rastrea de manera eficiente (10 veces más rápido) cada píxel en el espacio 3D a partir de videos monoculares

El seguimiento del movimiento 3D denso a partir de vídeos monoculares sigue siendo un desafío, especialmente cuando se busca una precisión a nivel de píxeles en secuencias largas. Los métodos existentes enfrentan desafíos para lograr un seguimiento 3D detallado porque a menudo rastrean solo unos pocos puntos, que necesitan más detalles para comprender la escena completa. También exigen potencia computacional, lo que dificulta el manejo eficiente de vídeos largos. Además, muchos de ellos deben corregirse para mantener la precisión en secuencias extendidas, ya que problemas como el movimiento de la cámara y la oclusión de objetos hacen que el modelo pierda la pista o introduzca errores.

Los métodos actuales incluyen varios enfoques para estimar el movimiento en secuencias de video, cada uno con fortalezas y limitaciones únicas. Las técnicas de flujo óptico proporcionan un seguimiento denso de píxeles, pero tienen dificultades con la solidez en escenas complejas, especialmente cuando se extienden a secuencias largas. Scene Flow generaliza el flujo óptico para estimar el movimiento 3D denso, utilizando datos RGB-D o nubes de puntos, pero sigue siendo un desafío aplicarlo de manera eficiente en secuencias largas. El seguimiento de puntos captura trayectorias de movimiento mediante el seguimiento de puntos específicos, y los avances recientes incorporan atención espacial y temporal para un seguimiento más fluido. Sin embargo, los métodos de seguimiento de puntos aún deben mejorar para lograr un seguimiento denso debido al alto coste computacional. Los métodos de seguimiento por reconstrucción utilizan un campo de deformación para estimar el movimiento, lo que los hace menos prácticos para aplicaciones en tiempo real.

Un equipo de investigadores de UMass Amherst y MIT-IBM Watson AI Lab, Snap Inc. han propuesto DELTA (Seguimiento 3D denso y eficiente de largo alcance para cualquier video), el primer método diseñado para rastrear de manera eficiente cada píxel en el espacio 3D a lo largo de largas secuencias de video. DELTA opera comenzando con un seguimiento de resolución reducida a través de atención espacio-temporal y aplicando un muestreador basado en atención para una precisión de alta resolución. Las innovaciones clave incluyen un muestreador para límites de movimiento nítidos, una arquitectura de atención espacial eficiente para un seguimiento denso y una representación de profundidad logarítmica que mejora el rendimiento del seguimiento. DELTA logra resultados de última generación en los conjuntos de datos CVO y Kubric3D, mostrando una mejora de más del 10 % en métricas como Average Jaccard (AJ) y Average Position Difference en 3D (APD3D), y se desempeña de manera competitiva en puntos de referencia de seguimiento de puntos 3D como TAP-Vid3D y LSFOdyssey. A diferencia de los métodos existentes, DELTA ofrece un seguimiento 3D denso a escala, funcionando 8 veces más rápido que los métodos anteriores y al mismo tiempo logra una precisión de última generación.

Un experimento realizado demostró que DELTA sobresale en tareas de seguimiento 3D, superando a los métodos anteriores en velocidad y precisión. Entrenada en el conjunto de datos de Kubric con más de 5600 videos, la función de pérdida de DELTA combina pérdidas de coordenadas 2D, profundidad y visibilidad.

En las pruebas comparativas, DELTA logró puntuaciones máximas en CVO para seguimiento 2D de largo alcance y en Kubric3D para seguimiento 3D denso, completando tareas mucho más rápido que otros métodos. Las opciones de diseño de DELTA, incluida la representación de profundidad de registro, la atención espacial y un muestreador basado en la atención, mejoran significativamente su precisión y eficiencia en diversos escenarios de seguimiento.

En conclusión, DELTA es un método altamente eficiente para rastrear cada píxel en cuadros de video, logrando precisión en seguimiento denso 2D y 3D con un tiempo de ejecución más rápido que los métodos existentes. Es posible que el modelo necesite ayuda con puntos que permanecen ocluidos durante períodos prolongados y funciona mejor en vídeos con menos de varios cientos de fotogramas. El enfoque tiene limitaciones similares a las de métodos anteriores, ya que utiliza ventanas de procesamiento temporal más cortas. Además, la precisión del seguimiento 3D del método depende de la precisión y la estabilidad temporal de la estimación de profundidad monocular utilizada. Las mejoras previstas en la investigación sobre la estimación de la profundidad monocular probablemente mejorarán aún más el rendimiento del método.

Mira el Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad

Nazmi Syed es pasante de consultoría en MarktechPost y está cursando una licenciatura en ciencias en el Instituto Indio de Tecnología (IIT) Kharagpur. Tiene una profunda pasión por la ciencia de datos y explora activamente las amplias aplicaciones de la inteligencia artificial en diversas industrias. Fascinada por los avances tecnológicos, Nazmi está comprometida a comprender e implementar innovaciones de vanguardia en contextos del mundo real.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️