Abstrakt und 1 Einleitung
Verwandte Arbeiten
2.1. Vision-and-Language Navigation
2.2. Semantisches Szenenverständnis und Instanzsegmentierung
2.3. 3D-Szenenrekonstruktion
Methodik
3.1. Datensammlung
3.2. Open-Set semantische Informationen aus Bildern
3.3. Erstellung der Open-Set 3D-Repräsentation
3.4. Sprachgeführte Navigation
Experimente
4.1. Quantitative Auswertung
4.2. Qualitative Ergebnisse
Fazit und zukünftige Arbeit, Offenlegungserklärung und Referenzen
In diesem Abschnitt diskutieren wir die Pipeline unserer Vision-Language Navigation (VLN)-Methode, die O3D-SIM einsetzt. Wir beginnen mit einem Überblick über unsere vorgeschlagene Pipeline und präsentieren dann eine eingehende Analyse ihrer Bestandteile. Die Anfangsphase unserer Methodik umfasst die Datensammlung, bestehend aus einer Reihe von RGB-D-Bildern und extrinsischen und intrinsischen Kameraparametern, die zuerst skizziert werden. Anschließend gehen wir zur Erstellung der Open-Set 3D Semantic Instance Map über. Dieser Prozess ist in zwei Hauptphasen unterteilt: Zunächst extrahieren wir Open-Set semantische Instanzinformationen aus den Bildern; danach nutzen wir die gesammelten Open-Set-Informationen, um die 3D-Punktwolke in eine Open-Set 3D semantische Instanzkarte zu organisieren. Der letzte Teil unserer Diskussion konzentriert sich auf das VLN-Modul, wo wir über seine Implementierung und Funktionalität sprechen.
\ Die Pipeline der O3D-SIM-Erstellung ist in Abb. 2 dargestellt. Der erste Schritt bei der Erstellung des O3D-SIM, der in Abschnitt 3.2 vorgestellt wird, ist die Extraktion der Open-Set semantischen Instanzinformationen aus der RGB-Sequenz der Eingangsbilder. Diese Informationen umfassen für jede Objektinstanz die Maskeninformationen und die semantischen Merkmale, dargestellt durch die CLIP [9] und DINO [10] Embedding-Features. Der zweite Schritt, der in Abschnitt 3.3 vorgestellt wird, verwendet diese Open-Set semantischen Instanzinformationen, um die Eingangs-3D-Punktwolke in eine Open-Set semantische 3D-Objektkarte zu clustern, siehe Abbildungen 2 und 3. Der Vorgang wird inkrementell verbessert, indem die Sequenz von RGB-D-Bildern im Laufe der Zeit angewendet wird.
\
:::info Autoren:
(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;
(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, Indien;
(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, Indien; dieser Autor hat zu gleichen Teilen zu dieser Arbeit beigetragen;
(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, Indien;
(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Türkei;
(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, Indien.
:::
:::info Dieses Paper ist auf arxiv verfügbar unter der CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International) Lizenz.
:::
\


