語音驅動3D虛擬人,百度ACCV 2020最新文章解讀

2020年11月21日13:24:04 科技 1105

機器之心報道

機器之心編輯部

本文來自百度研究院被亞洲計算機視覺會議 ACCV 2020 接收的一篇論文《Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses》。

Speech2Video 是一種從語音音頻輸入合成人體全身運動(包括頭、口、臂等)視頻的任務,其產生的視頻應該在視覺上是自然的,並且與給定的語音一致。傳統的 Speech2Video 方法一般會使用專用設備和專業操作員進行性能捕獲,且大多數語音和渲染任務是由動畫師完成的,定製使用的成本通常比較昂貴。

近年來,隨着深度神經網絡的成功應用,數據驅動的方法已經成為現實。例如,SythesisObama 或 MouthEditing 通過使用 RNN 通過語音驅動嘴部運動來合成說話的嘴部。泰勒 [3] 提出使用音頻來驅動高保真圖形模型,該模型不僅可以將嘴部動畫化,而且還可以對面部的其他部分進行動畫處理以獲得更豐富的語音表達。

然而,嘴部運動的合成大部分是確定性的:給定發音,在不同的人和環境中嘴部的運動或形狀是相似的。但現實生活中,相同情況下的全身手勢運動具有更高的生成力和更多的變異性,這些手勢高度依賴於當前的上下文和正在執行語音的人類。傳遞重要信息時,個性化的手勢會在特定時刻出現。因此,有用的信息僅稀疏地存在於視頻中,這為簡單的端到端學習算法 [1、3] 從有限的錄製視頻中捕獲這種多樣性帶來了困難。

近日,百度提出了一種新的方法,將給定文字或音頻轉換為具有同步、逼真、富表現力的肢體語言的實感視頻。該方法首先使用遞歸神經網絡(recursive neural network,RNN)從音頻序列生成 3D 骨骼運動,然後通過條件生成對抗網絡(GAN)合成輸出視頻。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

論文地址:https://arxiv.org/pdf/2007.09198.pdf

為了使骨骼運動逼真並富有表現力,研究者將關節 3D 人體骨骼的知識和學習過的個性化語音手勢字典嵌入到學習和測試過程中。前者可以防止產生不合理的身體變形,而後者通過一些有意義的身體運動視頻幫助模型快速學習。為了製作富有運動細節的逼真高分辨率視頻,研究者提出一種有條件的 GAN,其中每個細節部分,例如頭和手,是自動放大過的以擁有自己的判別器。該方法與以前處理類似任務的 SOTA 方法相比效果更好。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

方法

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

圖 1:Speech2Video 系統 pipeline

如圖 1 所示,根據用於訓練 LSTM 網絡的內容,系統的輸入是音頻或文本。考慮到文本到語音(TTS)和語音到文本(STT)技術都已經成熟並且可商用,此處假定音頻和 text 是可互換的。即使從最先進的 STT 引擎中得到一些錯誤識別的單詞 / 字符,系統也可以容忍這些錯誤,LSTM 網絡的主要目的是將文本 / 音頻映射到身體形狀。錯誤的 STT 輸出通常是與真實發音相似的單詞,這意味着它們的拼寫也很可能是相似的。因此,它們最終將映射的身體形狀或多或少相似。

LSTM 的輸出是由 SMPL-X 參數化的一系列人體姿勢 [9]。SMPL-X 是一個人體、面部和手部的 3D 聯合模型,這一動態關節 3D 模型是由一個 2D 彩色骨架圖像序列可視化的。這些 2D 圖像被進一步輸入到 vid2vid 生成網絡[17] 中,以生成最終的現實人物圖像。

在成功同步語音和動作的同時,LSTM 大部分時間只能學習重複的人類動作,這會使視頻看起來很無聊。為了使人體動作更具表現力和變化性,研究者在一些關鍵詞出現時將特定姿勢加入 LSTM 的輸出動作中,例如,巨大、微小、高、低等。研究者建立了一個字典,將這些關鍵詞映射到它們相應的姿勢。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

圖 3 顯示了數據採集環境。模特站在相機和屏幕的前面,當他 / 她在屏幕上閱讀腳本時,研究者會捕獲這些視頻。最後再要求模特擺一些關鍵詞的動作,例如巨大、微小、向上、向下、我、你等等。

人體模型擬合

研究者首先將這些 2D 關鍵點作為人體模型的表示,並訓練了 LSTM 網絡,但結果不能令人滿意(如圖 4 所示)。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

最後採用了 SMPL-X,這是一種關節式 3D 人體模型。SMPL-X 使用運動學骨架模型對人體動力學進行建模,具有 54 個關節,包括脖子、手指、手臂、腿和腳。

詞典構建和關鍵姿勢插入

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

如圖 5 所示,研究者從錄製的視頻中手動選擇關鍵姿勢,並建立一個單詞 - 姿勢查詢字典。同樣,該姿勢表示為 106 個 SMPL-X 參數。關鍵姿勢可以是靜止的單幀姿勢或多幀運動,可以通過相同的方法將兩者插入到現有的人體骨骼視頻中。 

訓練視頻生成網絡

研究者採用 vid2vid 提出的生成網絡,將骨架圖像轉換為真實的人像。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

圖 7:用於訓練 vid2vid 的示例圖像對。雙手均帶有特殊的色環標記。

運行時間和硬件方面,系統中最耗時和最耗內存的階段是訓練 vid2vid 網絡。在 8 個 NVIDIA Tesla M40 24G GPU 集群上完成 20 個時期的訓練大約需要一周;測試階段要快得多,在單個 GPU 上生成一幀僅需約 0.5 秒。

結果

評估與分析

如表 1 所示,研究者將使用用戶研究的結果與 4 種 SOTA 方法進行比較,結果顯示,本文方法獲得了最佳的總體質量得分。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

此外,研究者使用 Inception 分數評估圖像生成結果,包括兩個方面:圖像質量和圖像多樣性。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

為了評估最終輸出的視頻,研究者在 Amazon Mechanical Turk(AMT)上進行了人類主觀測試,共有 112 名參與者。研究者向參與者展示了總共五個視頻,其中四個是合成視頻,兩個由真實人的音頻生成,兩個由 TTS 音頻生成;剩下的是一個真實人物的短片。參與者以李克特量表(從 1(強烈不同意)到 5(強烈同意))對這些視頻的質量進行評分。其中包括:1)人體的完整性(沒有遺漏的身體部位或手指);2)視頻中人臉清晰;3)視頻中的人體動作(手臂,手,身體手勢)看起來自然流暢。4)身體的動作和手勢與聲音同步;5)視頻的整體視覺質量。

總結

Speech2Video 是一種新穎的框架,可以使用 3D 驅動的方法生成逼真的語音視頻,同時避免構建 3D 網格模型。作者在框架內建立了個性化關鍵手勢表,以處理數據稀疏性和多樣性的問題。更重要的是,作者利用 3D 骨骼約束來生成身體動力學,從而保證其姿勢在物理上是合理的。

參考鏈接:

1. Suwajanakorn, S., Seitz, S.M., Kemelmacher-Shlizerman, I.: Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG) 36 (2017) 95

2. Fried, O., Tewari, A., Zollh¨ofer, M., Finkelstein, A., Shechtman, E., Goldman, D.B., Genova, K., Jin, Z., Theobalt, C., Agrawala, M.: Text-based editing of talking-head video. arXiv preprint arXiv:1906.01524 (2019)

3. Taylor, S., Kim, T., Yue, Y., Mahler, M., Krahe, J., Rodriguez, A.G., Hodgins, J., Matthews, I.: A deep learning approach for generalized speech animation. ACM Transactions on Graphics (TOG) 36 (2017) 93

4. Kim, B.H., Ganapathi, V.: Lumi \ erenet: Lecture video synthesis from audio. arXiv preprint arXiv:1907.02253 (2019)

5. Pavllo, D., Feichtenhofer, C., Grangier, D., Auli, M.: 3d human pose estimation in video with temporal convolutions and semi-supervised training. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2019) 77537762

6. Cao, Z., Hidalgo, G., Simon, T., Wei, S.E., Sheikh, Y.: OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. In: arXiv preprint arXiv:1812.08008. (2018)

7. Pavlakos, G., Choutas, V., Ghorbani, N., Bolkart, T., Osman, A.A.A., Tzionas, D., Black, M.J.: Expressive body capture: 3d hands, face, and body from a single image. In: Proceedings IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2019)

8. Wang, T.C., Liu, M.Y., Zhu, J.Y., Liu, G., Tao, A., Kautz, J., Catanzaro, B.:Video-to-video synthesis. In: Advances in Neural Information Processing Systems (NeurIPS). (2018)

9. Romero, J., Tzionas, D., Black, M.J.: Embodied hands: Modeling and capturing hands and bodies together. ACM Transactions on Graphics (ToG) 36 (2017) 245

Amazon SageMaker1000元大禮包

ML訓練成本降90%,被全球上萬家公司使用,Amazon SageMaker是全託管機器學習平台,支持絕大多數機器學習框架與算法,並且用 IDE 寫代碼、可視化、Debug一氣呵成。

現在,我們準備了1000元的免費額度,開發者可以親自上手體驗,讓開發高質量模型變得更加輕鬆。

科技分類資訊推薦

築牢網絡安全防線,賦能智慧醫療發展 - 天天要聞

築牢網絡安全防線,賦能智慧醫療發展

江西‬民生‬新聞‬訊‬ 為進一步提升全縣衛健系統網絡安全防護水平,推動人工智能新技術在衛生健康行業的規範應用,6月13日下午,湖口縣衛健系統網絡安全培訓會在湖口縣中醫醫院舉行。縣直三家醫院信息科全體成員、各鄉鎮衛生院信息化工作分管領導及相
聯發科新旗艦天璣9500曝光,單核性能暴漲35% - 天天要聞

聯發科新旗艦天璣9500曝光,單核性能暴漲35%

全大核架構無疑是近年來聯發科天璣旗艦平台的標誌性設計,基於這一設計,最近幾年的天璣9000系列旗艦SoC的性能表現也相當亮眼。日前有消息源透露了聯發科下一代旗艦SoC天璣9500的相關信息,並稱其單核性能提升接近35%,Geekbench6單核成績超過3900分。據悉,聯發科或將為天璣9500帶來更激進的全大核CPU架構,或升級為1*Tra...
相關人士透露,京東物流將在沙特採取自營模式 - 天天要聞

相關人士透露,京東物流將在沙特採取自營模式

繼不久前有消息稱京東物流或已進入沙特市場,並組建千人團隊後。日前有京東物流方面相關人士對此回應稱,將在沙特採取自營模式,“不論何時何地,以用戶為中心的理念都將不變。”據了解,近年來京東物流持續加快國際化探索。例如此前在2024年12月,京東物流方面宣布了“全球織網計劃2.0”,並明確了全球一體化供應鏈戰略,...
安康通“數智康養空間站”為康養產業注入創新動能,這裡面有啥絕活呢? - 天天要聞

安康通“數智康養空間站”為康養產業注入創新動能,這裡面有啥絕活呢?

6月15日,“2025上海銀髮經濟百大品牌評選”結果在2025上海國際養老、輔具及康復醫療博覽會(簡稱“上海老博會”)現場正式公布,上海安康通健康管理有限公司入選其中的“銀髮健康服務品牌榜”。6月11日至13日,安康通以“數智創鏈・中國康養新範式”為主題打造的“數智康養空間站”,在上海老博會驚艷亮相,通過全場景數智...
服務中國企業“走出去”,“80後”律界精英共探ESG時代發展新路徑 - 天天要聞

服務中國企業“走出去”,“80後”律界精英共探ESG時代發展新路徑

6月13日至14日,第九屆全國“80後”律所主任會議在上海舉行。來自全國各地的律界“80後”精英100多人齊聚上海灘,以“ESG背景下律師事務所可持續發展”為主題,共商涉外法律服務的未來發展大計,為行業發展注入新的活力與智慧。隨着全球化進程的加速,ESG(環境、社會和治理)理念逐漸成為企業發展的重要指引,也為律師事務...
第八屆京東影像大賽即日起火熱開啟徵集 用鏡頭丈量世界贏五大洲環球之旅 - 天天要聞

第八屆京東影像大賽即日起火熱開啟徵集 用鏡頭丈量世界贏五大洲環球之旅

按下快門,每一幀都是生活中的高光時刻。2025年6月至11月,第八屆京東影像大賽如約而至。與往屆相比,本屆京東影像大賽持續創新玩法,以更豐富的七大投稿主題、讓更多熱愛攝影的記錄者共同參與的相機及手機設備雙重賽道、持續6個月的超長賽程、更權威的全球影像顧問評審陣容、五大洲環球之旅等更富意義的獎項……吸引帶動更...
百度向北京工商大學捐贈自動駕駛車 - 天天要聞

百度向北京工商大學捐贈自動駕駛車

6月15日,百度Apollo正式向北京工商大學計算機與人工智能學院捐贈自動駕駛車輛,並提供完整的全套自動駕駛套件,包括使用Apollo開放平台、自行搭建教學系統等,為北京工商大學自動駕駛科研教育和人....