Résumé et 1 Introduction
Travaux connexes
2.1. Navigation Vision-Langage
2.2. Compréhension sémantique de scène et segmentation d'instance
2.3. Reconstruction de scène 3D
Méthodologie
3.1. Collecte de données
3.2. Informations sémantiques en ensemble ouvert à partir d'images
3.3. Création de la représentation 3D en ensemble ouvert
3.4. Navigation guidée par le langage
Expériences
4.1. Évaluation quantitative
4.2. Résultats qualitatifs
Conclusion et travaux futurs, Déclaration de divulgation et Références
Dans cette section, nous discutons du pipeline de notre méthode de Navigation Vision-Langage (VLN), qui utilise O3D-SIM. Nous commençons par un aperçu de notre pipeline proposé, puis présentons une analyse approfondie de ses étapes constitutives. La phase initiale de notre méthodologie implique la collecte de données, comprenant un ensemble d'images RGB-D et des paramètres de caméra extrinsèques et intrinsèques, qui sont d'abord décrits. Par la suite, nous passons à la création de la Carte d'Instance Sémantique 3D en ensemble ouvert. Ce processus est divisé en deux étapes principales : initialement, nous extrayons des informations d'instance sémantique en ensemble ouvert à partir des images ; ensuite, nous utilisons les informations en ensemble ouvert recueillies pour organiser le nuage de points 3D en une carte d'instance sémantique 3D en ensemble ouvert. La dernière partie de notre discussion se concentre sur le module VLN, où nous parlons de son implémentation et de sa fonctionnalité.
\ Le pipeline de création de l'O3D-SIM est représenté dans la Fig.2. La première étape de la création de l'O3D-SIM, présentée dans la Section 3.2, est l'extraction des informations d'instance sémantique en ensemble ouvert à partir de la séquence RGB d'images d'entrée. Ces informations comprennent, pour chaque instance d'objet, les informations de masque et les caractéristiques sémantiques représentées par les caractéristiques d'intégration CLIP [9] et DINO [10]. La deuxième étape, présentée dans la Section 3.3, utilise ces informations d'instance sémantique en ensemble ouvert pour regrouper le nuage de points 3D d'entrée en une carte d'objets sémantiques 3D en ensemble ouvert, voir Figures 2 et 3. L'opération est améliorée de manière incrémentale en appliquant la séquence d'images RGB-D au fil du temps.
\
:::info Auteurs:
(1) Laksh Nanwani, Institut International de Technologie de l'Information, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;
(2) Kumaraditya Gupta, Institut International de Technologie de l'Information, Hyderabad, Inde;
(3) Aditya Mathur, Institut International de Technologie de l'Information, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;
(4) Swayam Agrawal, Institut International de Technologie de l'Information, Hyderabad, Inde;
(5) A.H. Abdul Hafez, Université Hasan Kalyoncu, Sahinbey, Gaziantep, Turquie;
(6) K. Madhava Krishna, Institut International de Technologie de l'Information, Hyderabad, Inde.
:::
:::info Cet article est disponible sur arxiv sous licence CC by-SA 4.0 Deed (Attribution-Partage dans les mêmes conditions 4.0 International).
:::
\


