Abstracto y 1 Introducción
Trabajos relacionados
2.1. Navegación de visión y lenguaje
2.2. Comprensión semántica de escenas y segmentación de instancias
2.3. Reconstrucción de escenas 3D
Metodología
3.1. Recopilación de datos
3.2. Información semántica de conjunto abierto a partir de imágenes
3.3. Creación de la representación 3D de conjunto abierto
3.4. Navegación guiada por lenguaje
Experimentos
4.1. Evaluación cuantitativa
4.2. Resultados cualitativos
Conclusión y trabajo futuro, declaración de divulgación y referencias
En los últimos tiempos, la reconstrucción de escenas 3D ha experimentado avances significativos. Algunos trabajos recientes en este campo incluyen el uso de un enfoque autosupervisado para la finalización de geometría semántica y la reconstrucción de apariencia a partir de escaneos RGB-D como [26], que utiliza arquitectura de codificador-decodificador 3D para geometría y color. Para estos enfoques, el enfoque está en generar reconstrucción semántica sin verdad fundamental. Otro enfoque es integrar la reconstrucción 3D en tiempo real con SLAM. Esto se realiza mediante técnicas basadas en fotogramas clave y se ha utilizado en casos de uso recientes de navegación autónoma y RA [27]. Otro método reciente ha trabajado en Campos de Radiancia Neural [28] para espacios interiores al utilizar estructura-desde-movimiento para comprender escenas capturadas por cámara. Estos modelos NeRF se entrenan para cada ubicación y son particularmente buenos para la comprensión espacial. Otro método consiste en construir gráficos de escena 3D utilizando vocabulario abierto y modelos fundamentales como CLIP para capturar relaciones semánticas entre objetos y sus representaciones visuales [4]. Durante la reconstrucción, utilizan las características extraídas de las nubes de puntos 3D y las proyectan en el espacio de incrustación aprendido por CLIP.
\ Este trabajo utiliza un método de segmentación de instancias 2D de conjunto abierto, como se explica en las secciones anteriores. Dada una imagen RGB-D, obtenemos estas máscaras de objetos individuales de la imagen RGB y las retroproyectamos a 3D utilizando la imagen de profundidad. Aquí, tenemos un enfoque basado en instancias en lugar de tener un cálculo punto por punto para reconstruir, que fue realizado anteriormente por Concept-Fusion [29]. Esta extracción de máscara de características por objeto también nos ayuda a calcular incrustaciones, que preservan la naturaleza de conjunto abierto de este pipeline.
\
:::info Autores:
(1) Laksh Nanwani, Instituto Internacional de Tecnología de la Información, Hyderabad, India; este autor contribuyó igualmente a este trabajo;
(2) Kumaraditya Gupta, Instituto Internacional de Tecnología de la Información, Hyderabad, India;
(3) Aditya Mathur, Instituto Internacional de Tecnología de la Información, Hyderabad, India; este autor contribuyó igualmente a este trabajo;
(4) Swayam Agrawal, Instituto Internacional de Tecnología de la Información, Hyderabad, India;
(5) A.H. Abdul Hafez, Universidad Hasan Kalyoncu, Sahinbey, Gaziantep, Turquía;
(6) K. Madhava Krishna, Instituto Internacional de Tecnología de la Información, Hyderabad, India.
:::
:::info Este artículo está disponible en arxiv bajo la licencia CC by-SA 4.0 Deed (Atribución-Compartir igual 4.0 Internacional).
:::
\

