Detalla el pipeline O3D-SIM para VLN. Extrae información de instancias semánticas de conjunto abierto (máscaras, características CLIP/DINO) de imágenes RGB-DDetalla el pipeline O3D-SIM para VLN. Extrae información de instancias semánticas de conjunto abierto (máscaras, características CLIP/DINO) de imágenes RGB-D

Extracción de Instancias Semánticas: Características CLIP y DINO para Mapeo 3D

2025/12/11 03:00

Abstracto y 1 Introducción

  1. Trabajos Relacionados

    2.1. Navegación de Visión y Lenguaje

    2.2. Comprensión Semántica de Escenas y Segmentación de Instancias

    2.3. Reconstrucción de Escenas 3D

  2. Metodología

    3.1. Recopilación de Datos

    3.2. Información Semántica de Conjunto Abierto desde Imágenes

    3.3. Creación de la Representación 3D de Conjunto Abierto

    3.4. Navegación Guiada por Lenguaje

  3. Experimentos

    4.1. Evaluación Cuantitativa

    4.2. Resultados Cualitativos

  4. Conclusión y Trabajo Futuro, Declaración de divulgación y Referencias

3. Metodología

En esta sección, discutimos el proceso de nuestro método de Navegación de Visión y Lenguaje (VLN), que emplea O3D-SIM. Comenzamos con una visión general de nuestro proceso propuesto y luego presentamos un análisis en profundidad de sus pasos constituyentes. La fase inicial de nuestra metodología involucra la recopilación de datos, que consiste en un conjunto de imágenes RGB-D y parámetros de cámara extrínsecos e intrínsecos, que se describen primero. Posteriormente, pasamos a crear el Mapa de Instancias Semánticas 3D de Conjunto Abierto. Este proceso se divide en dos etapas principales: inicialmente, extraemos información de instancias semánticas de conjunto abierto de las imágenes; después de esto, utilizamos la información de conjunto abierto recopilada para organizar la nube de puntos 3D en un mapa de instancias semánticas 3D de conjunto abierto. La parte final de nuestra discusión se centra en el módulo VLN, donde hablamos sobre su implementación y funcionalidad.

\ El proceso de creación del O3D-SIM se muestra en la Fig.2. El primer paso de la creación del O3D-SIM, presentado en la Sección 3.2, es la extracción de la información de instancias semánticas de conjunto abierto de la secuencia RGB de imágenes de entrada. Esta información incluye, para cada instancia de objeto, la información de máscara y las características semánticas representadas por las características de incrustación CLIP [9] y DINO [10]. El segundo paso, presentado en la Sección 3.3, utiliza esta información de instancias semánticas de conjunto abierto para agrupar la nube de puntos 3D de entrada en un mapa de objetos semánticos 3D de conjunto abierto, ver Figuras 2 y 3. La operación se mejora incrementalmente aplicando la secuencia de imágenes RGB-D a lo largo del tiempo.

\

:::info Autores:

(1) Laksh Nanwani, Instituto Internacional de Tecnología de la Información, Hyderabad, India; este autor contribuyó igualmente a este trabajo;

(2) Kumaraditya Gupta, Instituto Internacional de Tecnología de la Información, Hyderabad, India;

(3) Aditya Mathur, Instituto Internacional de Tecnología de la Información, Hyderabad, India; este autor contribuyó igualmente a este trabajo;

(4) Swayam Agrawal, Instituto Internacional de Tecnología de la Información, Hyderabad, India;

(5) A.H. Abdul Hafez, Universidad Hasan Kalyoncu, Sahinbey, Gaziantep, Turquía;

(6) K. Madhava Krishna, Instituto Internacional de Tecnología de la Información, Hyderabad, India.

:::


:::info Este artículo está disponible en arxiv bajo la licencia CC by-SA 4.0 Deed (Atribución-Compartir igual 4.0 Internacional).

:::

\

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.