Резюме и 1 Введение
Связанные работы
2.1. Навигация на основе зрения и языка
2.2. Семантическое понимание сцены и сегментация экземпляров
2.3. Реконструкция 3D-сцены
Методология
3.1. Сбор данных
3.2. Семантическая информация открытого набора из изображений
3.3. Создание 3D-представления открытого набора
3.4. Навигация на основе языка
Эксперименты
4.1. Количественная оценка
4.2. Качественные результаты
Заключение и будущая работа, Заявление о раскрытии информации и Ссылки
В этом разделе мы обсуждаем конвейер нашего метода навигации на основе зрения и языка (VLN), который использует O3D-SIM. Мы начинаем с обзора предлагаемого конвейера, а затем представляем глубокий анализ его составных этапов. Начальная фаза нашей методологии включает сбор данных, состоящий из набора RGB-D изображений и внешних и внутренних параметров камеры, которые описаны в первую очередь. Впоследствии мы переходим к созданию Семантической карты экземпляров 3D открытого набора. Этот процесс разделен на два основных этапа: изначально мы извлекаем информацию о семантических экземплярах открытого набора из изображений; после этого мы используем собранную информацию открытого набора для организации 3D-облака точек в семантическую карту экземпляров 3D открытого набора. Заключительная часть нашего обсуждения фокусируется на модуле VLN, где мы говорим о его реализации и функциональности.
\ Конвейер создания O3D-SIM изображен на Рис.2. Первым шагом создания O3D-SIM, представленным в Разделе 3.2, является извлечение семантической информации экземпляров открытого набора из RGB-последовательности входных изображений. Эта информация включает для каждого экземпляра объекта информацию о маске и семантические характеристики, представленные встраиваемыми характеристиками CLIP [9] и DINO [10]. Второй шаг, представленный в Разделе 3.3, использует эту семантическую информацию экземпляров открытого набора для кластеризации входного 3D-облака точек в семантическую карту 3D-объектов открытого набора, см. Рисунки 2 и 3. Операция улучшается постепенно путем применения последовательности RGB-D изображений с течением времени.
\
:::info Авторы:
(1) Лакш Нанвани, Международный институт информационных технологий, Хайдарабад, Индия; этот автор внес равный вклад в эту работу;
(2) Кумарадитья Гупта, Международный институт информационных технологий, Хайдарабад, Индия;
(3) Адитья Матур, Международный институт информационных технологий, Хайдарабад, Индия; этот автор внес равный вклад в эту работу;
(4) Свайям Агравал, Международный институт информационных технологий, Хайдарабад, Индия;
(5) А.Х. Абдул Хафез, Университет Хасана Кальонджу, Шахинбей, Газиантеп, Турция;
(6) К. Мадхава Кришна, Международный институт информационных технологий, Хайдарабад, Индия.
:::
:::info Эта статья доступна на arxiv по лицензии CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).
:::
\


