回顧 3D 重建技術,包括自監督式、SLAM 和 NeRF 方法。我們的方法使用開放集 2D 實例分割和 RGB-D 反投影,實現高效的基於實例的 3D 映射。回顧 3D 重建技術,包括自監督式、SLAM 和 NeRF 方法。我們的方法使用開放集 2D 實例分割和 RGB-D 反投影,實現高效的基於實例的 3D 映射。

3D 地圖繪製中的語義幾何補全和 SLAM 整合

2025/12/11 02:00

摘要和1 引言

  1. 相關工作

    2.1. 視覺與語言導航

    2.2. 語義場景理解和實例分割

    2.3. 3D場景重建

  2. 方法論

    3.1. 資料收集

    3.2. 從圖像中獲取開放集語義信息

    3.3. 創建開放集3D表示

    3.4. 語言引導導航

  3. 實驗

    4.1. 定量評估

    4.2. 定性結果

  4. 結論和未來工作、聲明和參考文獻

2.3. 3D場景重建

近年來,3D場景重建取得了顯著進展。該領域的一些最新工作包括使用自監督方法進行語義幾何完成和從RGB-D掃描重建外觀,例如[26],它使用3D編碼器-解碼器架構處理幾何和顏色。這些方法的重點是在沒有真實標註的情況下生成語義重建。另一種方法是將實時3D重建與SLAM整合。這是通過基於關鍵幀的技術實現的,並已在最近的自主導航和AR使用案例中應用[27]。另一種最新方法是在利用運動結構理解相機捕獲場景時,對室內空間使用神經輻射場[28]。這些NeRF模型針對每個位置進行訓練,特別適合空間理解。另一種方法是使用開放詞彙和基礎模型(如CLIP)構建3D場景圖,以捕捉物體之間的語義關係及其視覺表示[4]。在重建過程中,他們使用從3D點雲中提取的特徵,並將其投影到CLIP學習的嵌入空間中。

\ 本工作使用開放集2D實例分割方法,如前面章節所述。給定RGB-D圖像,我們從RGB圖像中獲取這些單獨的物體遮罩,並使用深度圖像將它們反投影到3D中。在這裡,我們採用基於實例的方法,而不是逐點計算進行重建,這是之前Concept-Fusion [29]所採用的方法。這種每個物體的特徵遮罩提取也幫助我們計算嵌入,保留了這個管道的開放集性質。

\

:::info 作者:

(1) Laksh Nanwani,印度海德拉巴國際信息技術學院;該作者對本工作貢獻相同;

(2) Kumaraditya Gupta,印度海德拉巴國際信息技術學院;

(3) Aditya Mathur,印度海德拉巴國際信息技術學院;該作者對本工作貢獻相同;

(4) Swayam Agrawal,印度海德拉巴國際信息技術學院;

(5) A.H. Abdul Hafez,土耳其加濟安泰普薩欣貝伊哈桑卡利永庫大學;

(6) K. Madhava Krishna,印度海德拉巴國際信息技術學院。

:::


:::info 本論文可在arxiv上獲取,遵循CC by-SA 4.0 Deed(署名-相同方式共享4.0國際)許可證。

:::

\

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。