O3D-SIM створюється шляхом проєкції 2D-масок та вбудовувань у 3D, використовуючи DBSCAN для початкового уточнення.O3D-SIM створюється шляхом проєкції 2D-масок та вбудовувань у 3D, використовуючи DBSCAN для початкового уточнення.

Побудова відкритого 3D-представлення: злиття функцій та геометрично-семантичне об'єднання

2025/12/15 01:00

Анотація та 1 Вступ

  1. Пов'язані роботи

    2.1. Навігація на основі зору та мови

    2.2. Семантичне розуміння сцени та сегментація об'єктів

    2.3. 3D реконструкція сцени

  2. Методологія

    3.1. Збір даних

    3.2. Семантична інформація з відкритим набором із зображень

    3.3. Створення 3D-представлення з відкритим набором

    3.4. Навігація на основі мови

  3. Експерименти

    4.1. Кількісна оцінка

    4.2. Якісні результати

  4. Висновок та майбутня робота, Заява про розкриття інформації та Посилання

3.3. Створення 3D-представлення з відкритим набором

Для завершення побудови O3D-SIM ми тепер спираємося на вбудовані ознаки, вилучені для кожного об'єкта, проектуючи інформацію про об'єкт у 3D-простір, кластеризуючи та пов'язуючи об'єкти на кількох зображеннях для створення комплексного 3D-представлення сцени. Процес проектування семантичної інформації в 3D-простір та уточнення карти зображено на рисунку 3.

\ 3.3.1. Ініціалізація O3D-SIM

\ 3D-карта спочатку створюється за допомогою вибраного зображення, яке виступає як опорний кадр для ініціалізації нашого представлення сцени. Цей крок встановлює фундаментальну структуру нашої 3D-сцени, яка потім поступово доповнюється даними з наступних зображень для збагачення складності та деталізації сцени.

\ Дані для об'єктів у 3D-сцені організовані як вузли в словнику, який спочатку є порожнім. Потім об'єкти ідентифікуються з початкового зображення разом із відповідними даними, що охоплюють вбудовані ознаки та інформацію про їхні маски. Для кожного об'єкта, розпізнаного на зображенні, створюється 3D-хмара точок з використанням доступної інформації про глибину та маски об'єкта. Це формування хмари точок включає відображення 2D-пікселів у 3D-простір, що полегшується внутрішніми параметрами камери та значеннями глибини. Згодом положення камери використовується для точного вирівнювання хмари точок у глобальній системі координат. Для уточнення нашого представлення сцени фільтрація фону видаляє елементи, ідентифіковані як фон, такі як стіни чи підлоги. Ці елементи виключаються з подальшої обробки, особливо на етапі кластеризації, оскільки вони не є основним фокусом нашого представлення сцени.

\ Набір хмар точок об'єктів далі обробляється за допомогою кластеризації DBSCAN[34] для уточнення представлення. Хмара точок зменшується за допомогою фільтрації воксельної сітки для зменшення кількості точок та обчислювальної складності, зберігаючи при цьому керовану просторову структуру даних. DBSCAN групує точки, які щільно упаковані разом, позначаючи точки, що лежать окремо в регіонах з низькою щільністю, як шум. На етапі посткластеризації ідентифікується найбільший кластер, який зазвичай відповідає основному об'єкту інтересу в хмарі точок. Це допомагає відфільтрувати шум та нерелевантні точки, створюючи чистіше представлення об'єкта інтересу.

\ Положення об'єкта в 3D-просторі визначається шляхом обчислення орієнтації обмежувальної рамки, яка пропонує стисле просторове представлення розташування та розміру об'єкта в 3D-просторі. Згодом вихід 3D-карти ініціалізується з початковим набором вузлів, що інкапсулюють вбудовані ознаки, дані хмари точок, обмежувальні рамки та кількість точок у хмарі точок, пов'язаних з кожним вузлом. Кожен вузол також включає інформацію про джерело для полегшення відстеження походження даних та зв'язку між вузлами та їхніми 2D-зображеннями.

\ 3.3.2. Поступове оновлення O3D-SIM

\ Після ініціалізації сцени ми оновлюємо представлення даними з нових зображень. Цей процес забезпечує актуальність та точність нашої 3D-сцени при надходженні додаткової інформації. Він ітерується по кожному зображенню в послідовності зображень; для кожного нового зображення витягуються дані про кілька об'єктів, і сцена оновлюється.

\ Об'єкти виявляються для кожного нового зображення, і нові вузли створюються як початкове зображення. Ці тимчасові вузли містять 3D-дані для нещодавно виявлених об'єктів, які повинні бути або об'єднані з існуючою сценою, або додані як нові вузли. Схожість між нещодавно виявленими та існуючими вузлами сцени визначається шляхом поєднання візуальної схожості, отриманої з вбудованих ознак, та просторової (геометричної) схожості, отриманої з перекриття хмари точок, для формулювання сукупної міри схожості. Якщо ця міра перевищує заздалегідь визначений поріг, нове виявлення вважається відповідним існуючому об'єкту в сцені. Дійсно, нещодавно виявлений вузол або об'єднується з існуючим вузлом сцени, або додається як новий вузол.

\ Об'єднання включає інтеграцію хмар точок та усереднення вбудованих ознак. Обчислюється зважене середнє вбудованих елементів CLIP та DINO, враховуючи внесок з інформації про ключ джерела, з перевагою для вузлів з більшою кількістю ідентифікаторів джерела. Якщо потрібно додати новий вузол, він включається до словника сцени.

\ Уточнення сцени відбувається після додавання об'єктів з усіх зображень у вхідній послідовності. Цей процес консолідує вузли, які представляють одні й ті ж фізичні об'єкти, але спочатку були ідентифіковані як окремі через оклюзії, зміни точки зору або подібні фактори. Він використовує матрицю перекриття для ідентифікації вузлів, які мають спільну просторову зайнятість, і логічно об'єднує їх в один вузол. Сцена завершується шляхом відкидання вузлів, які не відповідають мінімальній кількості точок або критеріям виявлення. Це призводить до уточненого та оптимізованого кінцевого представлення сцени - Семантичні карти екземплярів 3D з відкритим набором, також відомі як O3D-SIM.

\

:::info Автори:

(1) Лакш Нанвані, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;

(2) Кумарадітья Гупта, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;

(3) Адітья Матур, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;

(4) Свайям Аграваль, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;

(5) А.Х. Абдул Хафез, Університет Хасана Кальйонджу, Шахінбей, Газіантеп, Туреччина;

(6) К. Мадхава Крішна, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія.

:::


:::info Ця стаття доступна на arxiv за ліцензією CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Ринкові можливості
Логотип OpenLedger
Курс OpenLedger (OPEN)
$0.17953
$0.17953$0.17953
-1.82%
USD
Графік ціни OpenLedger (OPEN) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Реєстрація місця проживання в Німеччині: що потрібно знати українцям

Реєстрація місця проживання в Німеччині: що потрібно знати українцям

Реєстрація місця проживання в Німеччині або Anmeldung є не формальністю, а базовим юридичним обов’язком. Вона стосується всіх, хто планує залишатися в країні до
Поділитись
Finance2025/12/17 01:05
Українська defence tech компанія Frontline Robotics відкрила 60 вакансій: яких ІТ-спеціалістів шукає

Українська defence tech компанія Frontline Robotics відкрила 60 вакансій: яких ІТ-спеціалістів шукає

Frontline Robotics — українська defence tech компанія, що розробляє та виготовляє роботизовані системи для Сил безпеки й оборони України — розширює команду. Нар
Поділитись
Dev2025/12/17 00:06
'KPop Demon Hunters' переписує історію музики в анімаційних фільмах

'KPop Demon Hunters' переписує історію музики в анімаційних фільмах

Пост 'KPop Demon Hunters' переписує історію музики анімаційних фільмів з'явився на BitcoinEthereumNews.com. Саундтрек KPop Demon Hunters піднімається на 1 місце в Billboard 200, приєднуючись до невеликої групи альбомів анімаційних фільмів, які очолили чарт. ЛОС-АНДЖЕЛЕС, КАЛІФОРНІЯ – 24 СЕРПНЯ: Кен Джонг виступає під час події Netflix "KPop Demon Hunters" A Sing-Along Event в Regal LA Live 24 серпня 2025 року в Лос-Анджелесі, Каліфорнія. (Фото Гонсало Маррокіна/Getty Images для Netflix) Getty Images для Netflix Анімаційні фільми відомі не лише тим, що вони сімейні, але й винятковими показниками в прокаті та створенням одних із найбільш пам'ятних пісень в історії кіно. Disney та Pixar зробили великий бізнес не лише на створенні блокбастерів, але й на успішних саундтреках і незліченних синглах, які продалися мільйонами, домінували в чартах і вигравали Оскар за найкращу оригінальну пісню. Тепер Sony Animation та Netflix кидають виклик цим гігантам. KPop Demon Hunters, анімаційний фільм Netflix, який виявився найбільш переглянутим на платформі за всю історію, приєднується до ексклюзивного клубу найуспішніших саундтреків до анімаційних фільмів усіх часів, піднявшись на одну позицію в Америці. KPop Demon Hunter досягає 1 місця Саундтрек KPop Demon Hunters покращує свої позиції в Billboard 200 цього тижня, піднявшись з 2 на 1 місце. Цей тиждень знаменує перше перебування альбому на 1 місці в Америці після майже двох місяців очікування на другій позиції позаду таких проєктів, як "I'm the Problem" Моргана Воллена, "Don't Tap the Glass" Тайлера, the Creator, та "Man's Best Friend" Сабріни Карпентер. Останній альбом опускається на 2 місце після відкриття на першому місці лише минулого тижня. Король Лев, Покахонтас і Холодне серце За даними Billboard, KPop Demon Hunters тепер лише сьомий саундтрек до анімаційного фільму, який досяг 1 місця в...
Поділитись
BitcoinEthereumNews2025/09/19 03:35