Investigadores de John Hopkins presentan Genex: el modelo de IA que imagina su camino a través de mundos 3D
La planificación y la toma de decisiones en entornos complejos y parcialmente observados es un desafío importante en la IA incorporada. Tradicionalmente, los agentes incorporados dependen de la exploración física para recopilar más información, lo que puede llevar mucho tiempo y ser poco práctico, especialmente en entornos dinámicos a gran escala. Por ejemplo, la conducción o navegación autónoma en entornos urbanos a menudo exige que el agente tome decisiones rápidas basadas en información visual limitada. Es posible que el movimiento físico para adquirir más información no siempre sea factible o seguro, como cuando se responde a un obstáculo repentino como un vehículo detenido. Por lo tanto, existe una necesidad apremiante de soluciones que ayuden a los agentes a tener una comprensión más clara de su entorno sin una exploración física costosa y arriesgada.
Introducción a Genex
Los investigadores de John Hopkins presentaron Generative World Explorer (Genex), un novedoso modelo de generación de video que permite a agentes encarnados explorar imaginativamente entornos 3D a gran escala y actualizar sus creencias sin movimiento físico. Inspirándose en cómo los humanos usan modelos mentales para inferir partes invisibles de su entorno, Genex permite a los agentes de IA tomar decisiones más informadas basadas en escenarios imaginados. En lugar de navegar físicamente por el entorno para recopilar nuevas observaciones, Genex permite a un agente imaginar las partes invisibles del entorno y ajustar su comprensión en consecuencia. Esta capacidad podría ser particularmente beneficiosa para vehículos autónomos, robots u otros sistemas de inteligencia artificial que necesitan operar de manera efectiva en entornos urbanos o naturales a gran escala.
Para entrenar a Genex, los investigadores crearon un conjunto de datos sintéticos de escenas urbanas llamado Genex-DB, que incluye diversos entornos para simular condiciones del mundo real. A través de este conjunto de datos, Genex aprende a generar observaciones consistentes y de alta calidad de su entorno durante la exploración prolongada de un entorno virtual. Las creencias actualizadas, derivadas de observaciones imaginadas, informan los modelos de toma de decisiones existentes, lo que permite una mejor planificación sin la necesidad de navegación física.
Detalles técnicos
Genex utiliza un marco de generación de video egocéntrico condicionado a la vista panorámica actual del agente, combinando direcciones de movimiento previstas como entradas de acción. Esto permite que el modelo genere futuras observaciones egocéntricas, similares a explorar mentalmente nuevas perspectivas. Los investigadores aprovecharon un modelo de difusión de video entrenado en representaciones panorámicas para mantener la coherencia y garantizar que la salida generada sea espacialmente consistente. Esto es crucial porque un agente necesita mantener una comprensión consistente de su entorno, incluso cuando genera observaciones a largo plazo.
Una de las técnicas principales introducidas es el aprendizaje consistente esférico (SCL), que entrena a Genex para garantizar transiciones fluidas y continuidad en las observaciones panorámicas. A diferencia de los modelos tradicionales de generación de vídeo, que pueden centrarse en fotogramas individuales o puntos fijos, el enfoque panorámico de Genex captura una vista completa de 360 grados, lo que garantiza que el vídeo generado mantenga la coherencia en los diferentes campos de visión. La capacidad generativa de alta calidad de Genex lo hace adecuado para tareas como la conducción autónoma, donde las predicciones a largo plazo y el mantenimiento de la conciencia espacial son fundamentales.
Importancia y resultados
La introducción de la revisión de creencias impulsada por la imaginación es un gran salto para la IA incorporada. Con Genex, los agentes pueden generar una secuencia de vistas imaginadas que simulan la exploración física. Esta capacidad les permite actualizar sus creencias de una manera que imita las ventajas de la navegación física, pero sin los riesgos y costos asociados. Esta capacidad es vital para escenarios como la conducción autónoma, donde la seguridad y la rápida toma de decisiones son primordiales.
En evaluaciones experimentales, Genex demostró capacidades notables. Se demostró que supera a los modelos de referencia en varias métricas, como la calidad del vídeo y la coherencia de la exploración. En particular, la métrica de Consistencia del ciclo de exploración imaginativa (IECC) reveló que Genex mantuvo un alto nivel de coherencia durante la exploración de largo alcance, con errores cuadráticos medios (MSE) consistentemente más bajos que los modelos competitivos. Estos resultados indican que Genex no sólo es eficaz a la hora de generar contenido visual de alta calidad, sino también a la hora de mantener una comprensión estable del entorno durante largos períodos de exploración. Además, en escenarios que involucran entornos de múltiples agentes, Genex mostró una mejora significativa en la precisión de las decisiones, destacando su solidez en entornos complejos y dinámicos.
Conclusión
En resumen, Generative World Explorer (Genex) representa un avance significativo en el campo de la IA incorporada. Al aprovechar la exploración imaginativa, Genex permite a los agentes navegar mentalmente en entornos a gran escala y actualizar su comprensión sin movimiento físico. Este enfoque no sólo reduce los riesgos y costos asociados con la exploración tradicional, sino que también mejora las capacidades de toma de decisiones de los agentes de IA al permitirles tener en cuenta posibilidades imaginadas, en lugar de simplemente observadas. A medida que los sistemas de IA se siguen implementando en entornos cada vez más complejos, modelos como Genex allanan el camino para interacciones más sólidas, adaptables y seguras en escenarios del mundo real. La aplicación del modelo a la conducción autónoma y su extensión a escenarios de múltiples agentes sugiere una amplia gama de usos potenciales que podrían revolucionar la forma en que la IA interactúa con su entorno.
Consulte la página del artículo y del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
Por qué los modelos de lenguaje de IA siguen siendo vulnerables: información clave del informe de Kili Technology sobre las vulnerabilidades de los modelos de lenguaje grandes (Lea el informe técnico completo aquí)
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.