摘要和 1. 引言
相關工作
2.1. 從稀疏輸入重建動作
2.2. 人體動作生成
SAGE: 分層化虛擬形象生成和 3.1. 問題陳述和符號
3.2. 解耦動作表示
3.3. 分層動作擴散
3.4. 實現細節
實驗和評估指標
4.1. 數據集和評估指標
4.2. 定量和定性結果
4.3. 消融研究
結論和參考文獻
\ 補充材料
A. 額外消融研究
B. 實現細節
從稀疏觀測重建完整人體動作的任務在近幾十年來已在研究社群中獲得了顯著關注 [1, 3, 5, 7, 10, 11, 16, 18, 19, 46, 47, 49–51, 54]。例如,最近的研究 [16, 19, 46, 50, 51] 專注於從六個慣性測量單元 (IMU) 重建完整身體動作。SIP [46] 採用啟發式方法,而 DIP [16] 開創了深度神經網絡在此任務中的應用。PIP [51] 和 TIP [19] 通過納入物理約束進一步提升了性能。隨著 VR/AR 應用的興起,研究人員將注意力轉向從 VR/AR 設備重建完整身體動作,例如頭戴式設備 (HMD),這些設備僅提供使用者頭部和手部的信息,帶來了額外的挑戰。LoBSTr [49]、AvatarPoser [18] 和 AvatarJLM [54] 將此任務視為回歸問題,利用 GRU [49] 和 Transformer Network [18, 54] 從 HMD 的稀疏觀測預測完整身體姿勢。另一類方法採用生成模型 [5, 7, 10, 11]。例如,VAEHMD [10] 和 FLAG [5] 分別利用變分自編碼器 (VAE) [20] 和標準化流 [35]。最近的研究 [7, 11] 利用更強大的擴散模型 [15, 38] 進行動作生成,由於擴散模型在建模全身動作的條件概率分佈方面的強大能力,產生了令人期待的結果。
\ 與之前在綜合、統一框架中建模全身動作的方法相比,我們的方法認識到這些方法對深度學習模型帶來的複雜性,特別是在捕捉人體動作的複雜運動學方面。因此,我們提出了一種分層方法,將傳統的全身虛擬形象重建流程解耦,首先處理上半身,然後在上半身的條件下處理下半身。
\
:::info 作者:
(1) 馮瀚,同等貢獻,按字母順序排列,來自武漢大學;
(2) 馬文超,同等貢獻,按字母順序排列,來自賓夕法尼亞州立大學;
(3) 高全凱,南加州大學;
(4) 鄭賢偉,武漢大學;
(5) 薛楠,螞蟻集團 (xuenan@ieee.org);
(6) 徐慧娟,賓夕法尼亞州立大學。
:::
:::info 本論文可在 Arxiv 上獲取,採用 CC BY 4.0 DEED 許可證。
:::
\