本文回顧了從稀疏輸入重建全身動作的文獻,追溯從基於 IMU 的方法到當前頭戴式裝置所帶來的挑戰的演變。本文回顧了從稀疏輸入重建全身動作的文獻,追溯從基於 IMU 的方法到當前頭戴式裝置所帶來的挑戰的演變。

解耦全身動作:引入分層方法解決稀疏觀測挑戰

2025/10/21 10:03

摘要和 1. 引言

  1. 相關工作

    2.1. 從稀疏輸入重建動作

    2.2. 人體動作生成

  2. SAGE: 分層化虛擬形象生成和 3.1. 問題陳述和符號

    3.2. 解耦動作表示

    3.3. 分層動作擴散

    3.4. 實現細節

  3. 實驗和評估指標

    4.1. 數據集和評估指標

    4.2. 定量和定性結果

    4.3. 消融研究

  4. 結論和參考文獻

\ 補充材料

A. 額外消融研究

B. 實現細節

2. 相關工作

2.1. 從稀疏輸入重建動作

從稀疏觀測重建完整人體動作的任務在近幾十年來已在研究社群中獲得了顯著關注 [1, 3, 5, 7, 10, 11, 16, 18, 19, 46, 47, 49–51, 54]。例如,最近的研究 [16, 19, 46, 50, 51] 專注於從六個慣性測量單元 (IMU) 重建完整身體動作。SIP [46] 採用啟發式方法,而 DIP [16] 開創了深度神經網絡在此任務中的應用。PIP [51] 和 TIP [19] 通過納入物理約束進一步提升了性能。隨著 VR/AR 應用的興起,研究人員將注意力轉向從 VR/AR 設備重建完整身體動作,例如頭戴式設備 (HMD),這些設備僅提供使用者頭部和手部的信息,帶來了額外的挑戰。LoBSTr [49]、AvatarPoser [18] 和 AvatarJLM [54] 將此任務視為回歸問題,利用 GRU [49] 和 Transformer Network [18, 54] 從 HMD 的稀疏觀測預測完整身體姿勢。另一類方法採用生成模型 [5, 7, 10, 11]。例如,VAEHMD [10] 和 FLAG [5] 分別利用變分自編碼器 (VAE) [20] 和標準化流 [35]。最近的研究 [7, 11] 利用更強大的擴散模型 [15, 38] 進行動作生成,由於擴散模型在建模全身動作的條件概率分佈方面的強大能力,產生了令人期待的結果。

\ 與之前在綜合、統一框架中建模全身動作的方法相比,我們的方法認識到這些方法對深度學習模型帶來的複雜性,特別是在捕捉人體動作的複雜運動學方面。因此,我們提出了一種分層方法,將傳統的全身虛擬形象重建流程解耦,首先處理上半身,然後在上半身的條件下處理下半身。

\

:::info 作者:

(1) 馮瀚,同等貢獻,按字母順序排列,來自武漢大學;

(2) 馬文超,同等貢獻,按字母順序排列,來自賓夕法尼亞州立大學;

(3) 高全凱,南加州大學;

(4) 鄭賢偉,武漢大學;

(5) 薛楠,螞蟻集團 (xuenan@ieee.org);

(6) 徐慧娟,賓夕法尼亞州立大學。

:::


:::info 本論文可在 Arxiv 上獲取,採用 CC BY 4.0 DEED 許可證。

:::

\

免責聲明:本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。
分享文章