Detalha o pipeline O3D-SIM para VLN. Extrai informação semântica de instâncias de conjunto aberto (máscaras, características CLIP/DINO) de imagens RGB-DDetalha o pipeline O3D-SIM para VLN. Extrai informação semântica de instâncias de conjunto aberto (máscaras, características CLIP/DINO) de imagens RGB-D

Extração de Instância Semântica: Características CLIP e DINO para Mapeamento 3D

2025/12/11 03:00

Resumo e 1 Introdução

  1. Trabalhos Relacionados

    2.1. Navegação de Visão e Linguagem

    2.2. Compreensão Semântica de Cena e Segmentação de Instância

    2.3. Reconstrução de Cena 3D

  2. Metodologia

    3.1. Recolha de Dados

    3.2. Informação Semântica de Conjunto Aberto a partir de Imagens

    3.3. Criação da Representação 3D de Conjunto Aberto

    3.4. Navegação Guiada por Linguagem

  3. Experiências

    4.1. Avaliação Quantitativa

    4.2. Resultados Qualitativos

  4. Conclusão e Trabalho Futuro, Declaração de Divulgação e Referências

3. Metodologia

Nesta secção, discutimos o pipeline do nosso método de Navegação de Visão e Linguagem (VLN), que emprega O3D-SIM. Começamos com uma visão geral do nosso pipeline proposto e depois apresentamos uma análise aprofundada dos seus passos constituintes. A fase inicial da nossa metodologia envolve a recolha de dados, consistindo num conjunto de imagens RGB-D e parâmetros extrínsecos e intrínsecos da câmara, que são delineados primeiro. Subsequentemente, passamos para a criação do Mapa de Instância Semântica 3D de Conjunto Aberto. Este processo é dividido em duas etapas principais: inicialmente, extraímos informação de instância semântica de conjunto aberto das imagens; após isto, utilizamos a informação de conjunto aberto recolhida para organizar a nuvem de pontos 3D num mapa de instância semântica 3D de conjunto aberto. A parte final da nossa discussão concentra-se no módulo VLN, onde falamos sobre a sua implementação e funcionalidade.

\ O pipeline da criação do O3D-SIM é representado na Fig.2. O primeiro passo da criação do O3D-SIM, apresentado na Secção 3.2, é a extração da informação de instância semântica de conjunto aberto da sequência RGB de imagens de entrada. Esta informação inclui, para cada instância de objeto, a informação de máscara e as características semânticas representadas pelas características de incorporação CLIP [9] e DINO [10]. O segundo passo, apresentado na Secção 3.3, usa esta informação de instância semântica de conjunto aberto para agrupar a nuvem de pontos 3D de entrada num mapa de objetos semânticos 3D de conjunto aberto, ver Figuras 2 e 3. A operação é melhorada incrementalmente aplicando a sequência de imagens RGB-D ao longo do tempo.

\

:::info Autores:

(1) Laksh Nanwani, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia; este autor contribuiu igualmente para este trabalho;

(2) Kumaraditya Gupta, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia;

(3) Aditya Mathur, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia; este autor contribuiu igualmente para este trabalho;

(4) Swayam Agrawal, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia;

(5) A.H. Abdul Hafez, Universidade Hasan Kalyoncu, Sahinbey, Gaziantep, Turquia;

(6) K. Madhava Krishna, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia.

:::


:::info Este artigo está disponível no arxiv sob a licença CC by-SA 4.0 Deed (Atribuição-CompartilhaIgual 4.0 Internacional).

:::

\

Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail service@support.mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.