回顾3D重建,包括自监督、SLAM和NeRF方法。我们的方法使用开放集2D实例分割和RGB-D反投影进行高效的基于实例的3D映射。回顾3D重建,包括自监督、SLAM和NeRF方法。我们的方法使用开放集2D实例分割和RGB-D反投影进行高效的基于实例的3D映射。

3D 映射中的语义几何完成和 SLAM 集成

2025/12/11 02:00

摘要和1 引言

  1. 相关工作

    2.1. 视觉与语言导航

    2.2. 语义场景理解和实例分割

    2.3. 3D场景重建

  2. 方法论

    3.1. 数据收集

    3.2. 从图像中获取开放集语义信息

    3.3. 创建开放集3D表示

    3.4. 语言引导导航

  3. 实验

    4.1. 定量评估

    4.2. 定性结果

  4. 结论和未来工作、披露声明及参考文献

2.3. 3D场景重建

近年来,3D场景重建取得了显著进展。该领域的一些最新工作包括使用自监督方法进行语义几何完成和从RGB-D扫描中进行外观重建,如[26],它使用3D编码器-解码器架构处理几何和颜色。这些方法的重点是在没有真实标注的情况下生成语义重建。另一种方法是将实时3D重建与SLAM集成。这通过基于关键帧的技术实现,并已在最近的自主导航和AR用例中使用[27]。另一种最新方法是在利用运动结构恢复来理解相机捕获场景时,对室内空间使用神经辐射场[28]。这些NeRF模型针对每个位置进行训练,特别适合空间理解。另一种方法是使用开放词汇表和基础模型(如CLIP)构建3D场景图,以捕捉对象之间的语义关系及其视觉表示[4]。在重建过程中,他们使用从3D点云中提取的特征,并将其投影到CLIP学习的嵌入空间中。

\ 本工作使用开放集2D实例分割方法,如前面章节所述。给定RGB-D图像,我们从RGB图像中获取这些单独的对象掩码,并使用深度图像将它们反投影到3D中。在这里,我们采用基于实例的方法,而不是像Concept-Fusion [29]之前所做的那样进行逐点计算重建。这种每个对象的特征掩码提取也帮助我们计算嵌入,从而保持了该流程的开放集性质。

\

:::info 作者:

(1) Laksh Nanwani,印度海得拉巴国际信息技术学院;该作者对本工作贡献相同;

(2) Kumaraditya Gupta,印度海得拉巴国际信息技术学院;

(3) Aditya Mathur,印度海得拉巴国际信息技术学院;该作者对本工作贡献相同;

(4) Swayam Agrawal,印度海得拉巴国际信息技术学院;

(5) A.H. Abdul Hafez,土耳其加济安泰普沙欣贝伊哈桑卡利永库大学;

(6) K. Madhava Krishna,印度海得拉巴国际信息技术学院。

:::


:::info 本论文可在arxiv上获取,遵循CC by-SA 4.0 Deed(署名-相同方式共享4.0国际)许可证。

:::

\

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。