Резюме и 1 Введение
Связанные работы
2.1. Навигация с использованием зрения и языка
2.2. Семантическое понимание сцены и сегментация экземпляров
2.3. Реконструкция 3D-сцены
Методология
3.1. Сбор данных
3.2. Открытая семантическая информация из изображений
3.3. Создание открытого 3D-представления
3.4. Навигация с языковым управлением
Эксперименты
4.1. Количественная оценка
4.2. Качественные результаты
Заключение и будущая работа, Заявление о раскрытии информации и Ссылки
В последнее время реконструкция 3D-сцены достигла значительных успехов. Некоторые недавние работы в этой области включают использование самоконтролируемого подхода для завершения семантической геометрии и реконструкции внешнего вида из RGB-D сканов, таких как [26], который использует 3D архитектуру кодировщика-декодера для геометрии и цвета. Для этих подходов основное внимание уделяется созданию семантической реконструкции без эталонной истины. Другой подход заключается в интеграции реконструкции 3D в реальном времени с SLAM. Это делается с помощью техник, основанных на ключевых кадрах, и использовалось в недавних случаях автономной навигации и дополненной реальности [27]. Еще один недавний метод включает работу с нейронными полями излучения [28] для внутренних пространств при использовании структуры из движения для понимания сцен, захваченных камерой. Эти модели NeRF обучаются для каждого местоположения и особенно хороши для пространственного понимания. Другой метод заключается в построении 3D-графов сцены с использованием открытого словаря и фундаментальных моделей, таких как CLIP, для захвата семантических отношений между объектами и их визуальными представлениями [4]. Во время реконструкции они используют функции, извлеченные из 3D-облаков точек, и проецируют их на пространство вложений, изученное CLIP.
\ Эта работа использует метод сегментации экземпляров открытого набора 2D, как объяснено в предыдущих разделах. Имея RGB-D изображение, мы получаем эти индивидуальные маски объектов из RGB-изображения и обратно проецируем их в 3D, используя изображение глубины. Здесь мы используем подход, основанный на экземплярах, вместо поточечных вычислений для реконструкции, что ранее делалось Concept-Fusion [29]. Это извлечение маски функций для каждого объекта также помогает нам вычислять вложения, которые сохраняют открытый характер этого конвейера.
\
:::info Авторы:
(1) Лакш Нанвани, Международный институт информационных технологий, Хайдарабад, Индия; этот автор внес равный вклад в эту работу;
(2) Кумарадитья Гупта, Международный институт информационных технологий, Хайдарабад, Индия;
(3) Адитья Матур, Международный институт информационных технологий, Хайдарабад, Индия; этот автор внес равный вклад в эту работу;
(4) Свайям Агравал, Международный институт информационных технологий, Хайдарабад, Индия;
(5) А.Х. Абдул Хафез, Университет Хасана Кальонджу, Шахинбей, Газиантеп, Турция;
(6) К. Мадхава Кришна, Международный институт информационных технологий, Хайдарабад, Индия.
:::
:::info Эта статья доступна на arxiv по лицензии CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).
:::
\


