摘要和1 引言
相關工作
2.1. 視覺與語言導航
2.2. 語義場景理解和實例分割
2.3. 3D場景重建
方法論
3.1. 資料收集
3.2. 從圖像中獲取開放集語義信息
3.3. 創建開放集3D表示
3.4. 語言引導導航
實驗
4.1. 定量評估
4.2. 定性結果
結論和未來工作、聲明和參考文獻
近年來,3D場景重建取得了顯著進展。該領域的一些最新工作包括使用自監督方法進行語義幾何完成和從RGB-D掃描重建外觀,例如[26],它使用3D編碼器-解碼器架構處理幾何和顏色。這些方法的重點是在沒有真實標註的情況下生成語義重建。另一種方法是將實時3D重建與SLAM整合。這是通過基於關鍵幀的技術實現的,並已在最近的自主導航和AR使用案例中應用[27]。另一種最新方法是在利用運動結構理解相機捕獲場景時,對室內空間使用神經輻射場[28]。這些NeRF模型針對每個位置進行訓練,特別適合空間理解。另一種方法是使用開放詞彙和基礎模型(如CLIP)構建3D場景圖,以捕捉物體之間的語義關係及其視覺表示[4]。在重建過程中,他們使用從3D點雲中提取的特徵,並將其投影到CLIP學習的嵌入空間中。
\ 本工作使用開放集2D實例分割方法,如前面章節所述。給定RGB-D圖像,我們從RGB圖像中獲取這些單獨的物體遮罩,並使用深度圖像將它們反投影到3D中。在這裡,我們採用基於實例的方法,而不是逐點計算進行重建,這是之前Concept-Fusion [29]所採用的方法。這種每個物體的特徵遮罩提取也幫助我們計算嵌入,保留了這個管道的開放集性質。
\
:::info 作者:
(1) Laksh Nanwani,印度海德拉巴國際信息技術學院;該作者對本工作貢獻相同;
(2) Kumaraditya Gupta,印度海德拉巴國際信息技術學院;
(3) Aditya Mathur,印度海德拉巴國際信息技術學院;該作者對本工作貢獻相同;
(4) Swayam Agrawal,印度海德拉巴國際信息技術學院;
(5) A.H. Abdul Hafez,土耳其加濟安泰普薩欣貝伊哈桑卡利永庫大學;
(6) K. Madhava Krishna,印度海德拉巴國際信息技術學院。
:::
:::info 本論文可在arxiv上獲取,遵循CC by-SA 4.0 Deed(署名-相同方式共享4.0國際)許可證。
:::
\


