XR-Objects: un nuevo prototipo de realidad aumentada de código abierto que transforma objetos físicos en portales digitales interactivos utilizando segmentación de objetos en tiempo real y modelos de lenguaje multimodal de gran tamaño

Los avances en Realidad Extendida (XR) han permitido la fusión de entidades del mundo real dentro del mundo virtual. Sin embargo, a pesar de los innumerables sensores, la gran cantidad de cámaras y las costosas técnicas de visión por computadora, esta integración plantea algunas preguntas críticas. 1 ) ¿Esta combinación realmente captura la esencia de los objetos del mundo real o simplemente los trata como un telón de fondo? 2) Si continuamos por el camino a esta velocidad, ¿pronto sería “factible” accesible para las masas? Cuando se ve de forma independiente y sin intervenciones de aprendizaje automático, el futuro de XR parece confuso: A) Los esfuerzos actuales transportan objetos circundantes a XR, pero esta integración es superficial y carece de interacción significativa. B ) Las masas no son más exuberantes cuando superan las limitaciones tecnológicas para experimentar la XR mencionada en la parte (A). Cuando la IA y sus múltiples aplicaciones fascinantes, como la segmentación no supervisada en tiempo real y la generación de contenido generativo de IA, entran en perspectiva, se establece un terreno sólido para que XR logre este futuro de XR que abarca una integración perfecta.

Un equipo de investigadores de Google dio a conocer recientemente Objetos XRy en sus palabras literales, afirman hacer que XR sea tan inmersivo como: “hacer clic derecho en un archivo digital para abrir su menú contextual, pero aplicado a objetos físicos”. El artículo presenta la ‘Inteligencia de objetos aumentada’ que emplea IA para extraer información digital de objetos analógicos, una tarea que anteriormente se consideró ardua. AOI representa un cambio de paradigma hacia la integración perfecta de contenido real y virtual y brinda a los usuarios la libertad de realizar interacciones digitales apropiadas al contexto. Los investigadores de Google combinaron los desarrollos de AR en comprensión espacial a través de SLAM con la detección y segmentación de objetos integrada con el modelo de lenguaje grande multimodal (MLLM)

XR Object ofrece una interacción centrada en objetos a diferencia del enfoque centrado en aplicaciones de Google Lens. Aquí, las interacciones están directamente ancladas a objetos dentro del entorno del usuario, mejoradas aún más por una interfaz de usuario World-Space, que ahorra la molestia de navegar a través de aplicaciones y seleccionar objetos manualmente. Para garantizar el atractivo estético y evitar el desorden, la información digital se presenta en burbujas semitransparentes que sirven como sugerencias sutiles y minimalistas.

El marco para lograr este estado del arte en XR es sencillo. La estrategia cuádruple es: A) Detección de objetos y B) Localización y anclaje de objetos. C) Acoplamiento de cada objeto con MLLM D) Ejecución de Acción. La biblioteca Google MediaPipe, que esencialmente utiliza una CNN optimizada para dispositivos móviles, resulta útil para la primera tarea y genera cuadros delimitadores 2D que inician el anclaje y la localización de AR. Actualmente, esta CNN está entrenada en un conjunto de datos COCO que clasifica alrededor de 80 objetos. Inicialmente, los mapas de profundidad se utilizan para la localización AR y se inicia una plantilla de proxy de objeto que contiene el menú contextual del objeto. Por último, se acopla un MLLM(PaLI) con cada objeto y el cuadro delimitador recortado del paso A se convierte en el mensaje. Esto hace que el algoritmo se destaque e identifique la “salsa de soja oscura superior” de la botella normal que se guarda en la cocina.

Google realizó un estudio de usuarios para comparar XR Object con Gemini, y los resultados no fueron una sorpresa dado el contexto anterior. XR logró dulces victorias en consumo de tiempo y factor de forma para HMD. El factor de forma del teléfono se dividió entre chatbot y objetos XR. Los resultados de la encuesta HALIE tanto para Chatbot como para XR fueron similares. Los usuarios del tema también agradecieron a XR sobre lo útil y eficiente que fue. Los usuarios también proporcionaron comentarios para mejorar su viabilidad ergonómica.

Este nuevo paradigma de AOI es prometedor y crecería con la aceleración de las funcionalidades de LLM. Sería interesante ver si su contraparte Meta, que ha logrado grandes avances en segmentación y LLM, desarrollaría nuevas soluciones para reemplazar a los Objetos XR y llevar a XR a un nuevo cenit.

Mira el Papel y detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!

Adeeba Alam Ansari actualmente está cursando su doble titulación en el Instituto Indio de Tecnología (IIT) Kharagpur, donde obtuvo una licenciatura en Ingeniería Industrial y una maestría en Ingeniería Financiera. Con un gran interés en el aprendizaje automático y la inteligencia artificial, es una lectora ávida y una persona curiosa. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo real.