Resumo e 1 Introdução
Trabalhos Relacionados
2.1. Navegação de Visão e Linguagem
2.2. Compreensão Semântica de Cenas e Segmentação de Instâncias
2.3. Reconstrução de Cena 3D
Metodologia
3.1. Recolha de Dados
3.2. Informação Semântica de Conjunto Aberto a partir de Imagens
3.3. Criação da Representação 3D de Conjunto Aberto
3.4. Navegação Guiada por Linguagem
Experiências
4.1. Avaliação Quantitativa
4.2. Resultados Qualitativos
Conclusão e Trabalho Futuro, Declaração de Divulgação e Referências
Nos últimos tempos, a reconstrução de cenas 3D tem visto avanços significativos. Alguns trabalhos recentes neste campo incluem o uso de uma abordagem auto-supervisionada para conclusão de Geometria Semântica e reconstrução de aparência a partir de digitalizações RGB-D, como [26], que utiliza arquitetura de codificador-descodificador 3D para geometria e cor. Para estas abordagens, o foco está em gerar reconstrução semântica sem verdade fundamental. Outra abordagem é integrar a reconstrução 3D em tempo real com SLAM. Isto é feito através de técnicas baseadas em keyframes e tem sido utilizado em casos de uso recentes de navegação autónoma e RA [27]. Outro método recente tem visto trabalho em Campos de Radiância Neural [28] para espaços interiores ao utilizar estrutura-a-partir-de-movimento para compreender cenas capturadas por câmara. Estes modelos NeRF são treinados para cada localização e são particularmente bons para compreensão espacial. Outro método é construir gráficos de cena 3D usando vocabulário aberto e modelos fundamentais como CLIP para capturar relações semânticas entre objetos e suas representações visuais [4]. Durante a reconstrução, eles usam as características extraídas das nuvens de pontos 3D e projetam-nas no espaço de incorporação aprendido pelo CLIP.
\ Este trabalho utiliza um método de segmentação de instâncias 2D de conjunto aberto, como explicado nas secções anteriores. Dada uma imagem RGB-D, obtemos estas máscaras de objetos individuais da imagem RGB e retroprojetamo-las para 3D usando a imagem de Profundidade. Aqui, temos uma abordagem baseada em instâncias em vez de ter um cálculo ponto a ponto para reconstruir, que foi anteriormente feito pelo Concept-Fusion [29]. Esta extração de máscara de características por objeto também nos ajuda a calcular incorporações, que preservam a natureza de conjunto aberto deste pipeline.
\
:::info Autores:
(1) Laksh Nanwani, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia; este autor contribuiu igualmente para este trabalho;
(2) Kumaraditya Gupta, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia;
(3) Aditya Mathur, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia; este autor contribuiu igualmente para este trabalho;
(4) Swayam Agrawal, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia;
(5) A.H. Abdul Hafez, Universidade Hasan Kalyoncu, Sahinbey, Gaziantep, Turquia;
(6) K. Madhava Krishna, Instituto Internacional de Tecnologia da Informação, Hyderabad, Índia.
:::
:::info Este artigo está disponível no arxiv sob licença CC by-SA 4.0 Deed (Atribuição-CompartilhaIgual 4.0 Internacional).
:::
\


