摘要和1 引言
相关工作
2.1. 视觉与语言导航
2.2. 语义场景理解和实例分割
2.3. 3D场景重建
方法论
3.1. 数据收集
3.2. 从图像中获取开放集语义信息
3.3. 创建开放集3D表示
3.4. 语言引导导航
实验
4.1. 定量评估
4.2. 定性结果
结论和未来工作、披露声明及参考文献
近年来,3D场景重建取得了显著进展。该领域的一些最新工作包括使用自监督方法进行语义几何完成和从RGB-D扫描中进行外观重建,如[26],它使用3D编码器-解码器架构处理几何和颜色。这些方法的重点是在没有真实标注的情况下生成语义重建。另一种方法是将实时3D重建与SLAM集成。这通过基于关键帧的技术实现,并已在最近的自主导航和AR用例中使用[27]。另一种最新方法是在利用运动结构恢复来理解相机捕获场景时,对室内空间使用神经辐射场[28]。这些NeRF模型针对每个位置进行训练,特别适合空间理解。另一种方法是使用开放词汇表和基础模型(如CLIP)构建3D场景图,以捕捉对象之间的语义关系及其视觉表示[4]。在重建过程中,他们使用从3D点云中提取的特征,并将其投影到CLIP学习的嵌入空间中。
\ 本工作使用开放集2D实例分割方法,如前面章节所述。给定RGB-D图像,我们从RGB图像中获取这些单独的对象掩码,并使用深度图像将它们反投影到3D中。在这里,我们采用基于实例的方法,而不是像Concept-Fusion [29]之前所做的那样进行逐点计算重建。这种每个对象的特征掩码提取也帮助我们计算嵌入,从而保持了该流程的开放集性质。
\
:::info 作者:
(1) Laksh Nanwani,印度海得拉巴国际信息技术学院;该作者对本工作贡献相同;
(2) Kumaraditya Gupta,印度海得拉巴国际信息技术学院;
(3) Aditya Mathur,印度海得拉巴国际信息技术学院;该作者对本工作贡献相同;
(4) Swayam Agrawal,印度海得拉巴国际信息技术学院;
(5) A.H. Abdul Hafez,土耳其加济安泰普沙欣贝伊哈桑卡利永库大学;
(6) K. Madhava Krishna,印度海得拉巴国际信息技术学院。
:::
:::info 本论文可在arxiv上获取,遵循CC by-SA 4.0 Deed(署名-相同方式共享4.0国际)许可证。
:::
\


