南洋理工讓機器人動作更人性化:新技術讓AI學會"見機行事"

動畫師製作一個角色的行走動作時,既要考慮劇情需要(比如這個角色是緊張還是悠閑),也要確保動作足夠自然流暢。如果讓計算機來做這件事,傳統方法就像兩個不同的師傅分工:一個師傅專門理解劇情需要(語義理解),另一個師傅專門讓動作看起來自然(運動控制)。但問題是,這兩個師傅經常配合不好。這項由南洋理工大學S-Lab實驗室與香港中文大學合作完成的研究發表於2026年3月,論文編號為arXiv:2603.19227v1,提出了一個名為MoTok的新方案,成功解決了這個難題。

在虛擬人物動作生成領域,研究人員一直面臨著一個根本性挑戰。就像一個廚師既要做出美味的菜肴,又要確保營養搭配合理,計算機在生成人體動作時,既需要理解高層次的語義指令(比如"開心地走路"),又要確保生成的動作在物理上合理且自然流暢。傳統的解決方案主要分為兩大類:連續擴散模型擅長生成自然流暢的動作,但在理解複雜語義指令方面表現不佳;而基於離散標記的生成模型能夠很好地處理語義條件,但在精確的運動控制方面力不從心。

研究團隊深入分析了這個問題的本質,發現關鍵在於如何將語義理解和運動控制這兩個看似矛盾的需求有效結合起來。他們提出了一個三階段的解決框架,將整個動作生成過程分解為"感知—規劃—控制"三個步驟,就像一個經驗豐富的導演指揮演員表演一樣。在感知階段,系統首先理解各種條件輸入;在規劃階段,系統在離散的標記空間中進行高層次的動作規劃;在控制階段,系統通過擴散模型生成最終的連續動作序列。

這個框架的核心創新是MoTok技術,它改變了傳統動作標記化的思路。以往的方法就像要求一張名片既要包含詳細的個人信息,又要保持簡潔美觀,往往難以兼顧。MoTok則採用了"分工合作"的策略:離散標記只負責捕捉動作的語義信息,而將具體的動作細節重建工作完全交給擴散解碼器。這種設計使得系統能夠用更少的標記表達更豐富的語義信息,同時保持高質量的動作重建能力。

在處理條件信息時,研究團隊採用了巧妙的分層策略。他們將條件分為全局條件和局部條件兩類。全局條件就像電影的總體基調,為整個動作序列提供語義指導,比如文本描述"快樂地行走";局部條件則像具體的表演要求,提供精確的運動約束,比如特定關節的軌跡控制。在規劃階段,系統使用粗粒度的約束來指導標記生成;在控制階段,系統則通過精細化的約束來確保動作的準確性。這種粗細結合的方式避免了運動細節干擾語義規劃的問題。

為了驗證這個方法的效果,研究團隊在標準的動作生成數據集上進行了全面的實驗。實驗結果顯示,在文本到動作的生成任務中,MoTok顯著超越了現有的最佳方法。更令人印象深刻的是在軌跡控制任務中的表現:相比最強的基線方法MaskControl,MoTok將軌跡誤差從0.72厘米大幅降低到0.08厘米,同時將生成質量指標FID從0.083改善到0.029,而使用的標記數量僅為MaskControl的六分之一。這種改進不僅體現在量化指標上,在實際的動作質量上也有明顯提升。

特別值得注意的是,傳統方法在面臨更嚴格的運動約束時,生成質量往往會下降,就像要求演員在表演時遵守更多限制,反而可能影響表演的自然度。但MoTok展現出了相反的趨勢:隨着約束條件的增加,生成的動作質量實際上得到了提升。這個現象表明,適當的約束信息實際上能夠幫助系統生成更加合理和自然的動作。

在技術實現上,MoTok採用了統一的條件注入方案,使得同一個框架能夠支持多種不同的生成器架構。無論是離散擴散模型還是自回歸模型,都可以在這個框架下工作。這種靈活性使得研究人員可以根據具體應用需求選擇最適合的生成策略,而不必重新設計整個系統。

研究團隊還進行了詳細的消融研究,探索了不同設計選擇對系統性能的影響。他們發現,擴散解碼器的設計對系統性能有重要影響,特別是時序建模能力的引入能夠顯著提升生成質量。同時,他們發現在標記空間和擴散解碼階段都注入運動約束是獲得最佳性能的關鍵,單獨在其中一個階段注入約束都會導致性能下降。

這項研究的意義遠不止於技術層面的改進。在實際應用中,這種技術能夠為動畫製作、遊戲開發、虛擬現實等領域提供更強大的工具。動畫師可以通過簡單的文字描述結合少量關鍵幀,就能生成高質量的角色動作;遊戲開發者可以更容易地創建響應玩家行為的智能角色;虛擬現實應用可以提供更加自然和沉浸式的交互體驗。

從更廣闊的視角來看,這項研究展示了如何通過合理的系統設計來協調看似衝突的需求。這種"分而治之"的思路不僅在動作生成領域有價值,在其他需要同時處理高層語義和低層細節的人工智能應用中也具有借鑒意義。

展望未來,研究團隊計划進一步優化系統的效率,探索更多類型的條件輸入,以及將這個框架擴展到更複雜的動作生成任務中。隨着這類技術的不斷成熟,我們有望看到更加智能和自然的虛擬角色,它們能夠更好地理解人類的意圖並做出恰當的響應。對於普通用戶來說,這意味着未來的虛擬助手、遊戲角色和動畫人物將變得更加生動和富有表現力。

Q&A

Q1:MoTok技術是什麼?

A:MoTok是南洋理工大學開發的一種新型動作標記化技術,它能夠讓計算機同時理解語義指令和生成自然流暢的人體動作。不同於傳統方法,MoTok採用"分工合作"策略,用離散標記處理語義信息,用擴散模型負責動作細節,從而實現更高效的動作生成。

Q2:MoTok相比傳統方法有什麼優勢?

A:MoTok在保持高質量動作生成的同時,顯著減少了所需的計算資源。實驗顯示,它將軌跡控制誤差從0.72厘米降低到0.08厘米,生成質量指標FID從0.083改善到0.029,而使用的標記數量僅為傳統方法的六分之一。更重要的是,它能在更嚴格的約束下生成更好的動作。

Q3:MoTok技術可以用在哪些地方?

A:MoTok技術在動畫製作、遊戲開發、虛擬現實等領域都有廣泛應用前景。動畫師可以用簡單的文字描述生成角色動作,遊戲開發者可以創建更智能的虛擬角色,VR應用可以提供更自然的交互體驗。未來的虛擬助手和動畫人物將變得更加生動逼真。