語音驅動3D虛擬人,百度ACCV 2020最新文章解讀

2020年11月21日13:24:04 科技 1105

機器之心報道

機器之心編輯部

本文來自百度研究院被亞洲計算機視覺會議 ACCV 2020 接收的一篇論文《Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses》。

Speech2Video 是一種從語音音頻輸入合成人體全身運動(包括頭、口、臂等)視頻的任務,其產生的視頻應該在視覺上是自然的,並且與給定的語音一致。傳統的 Speech2Video 方法一般會使用專用設備和專業操作員進行性能捕獲,且大多數語音和渲染任務是由動畫師完成的,定製使用的成本通常比較昂貴。

近年來,隨着深度神經網絡的成功應用,數據驅動的方法已經成為現實。例如,SythesisObama 或 MouthEditing 通過使用 RNN 通過語音驅動嘴部運動來合成說話的嘴部。泰勒 [3] 提出使用音頻來驅動高保真圖形模型,該模型不僅可以將嘴部動畫化,而且還可以對面部的其他部分進行動畫處理以獲得更豐富的語音表達。

然而,嘴部運動的合成大部分是確定性的:給定發音,在不同的人和環境中嘴部的運動或形狀是相似的。但現實生活中,相同情況下的全身手勢運動具有更高的生成力和更多的變異性,這些手勢高度依賴於當前的上下文和正在執行語音的人類。傳遞重要信息時,個性化的手勢會在特定時刻出現。因此,有用的信息僅稀疏地存在於視頻中,這為簡單的端到端學習算法 [1、3] 從有限的錄製視頻中捕獲這種多樣性帶來了困難。

近日,百度提出了一種新的方法,將給定文字或音頻轉換為具有同步、逼真、富表現力的肢體語言的實感視頻。該方法首先使用遞歸神經網絡(recursive neural network,RNN)從音頻序列生成 3D 骨骼運動,然後通過條件生成對抗網絡(GAN)合成輸出視頻。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

論文地址:https://arxiv.org/pdf/2007.09198.pdf

為了使骨骼運動逼真並富有表現力,研究者將關節 3D 人體骨骼的知識和學習過的個性化語音手勢字典嵌入到學習和測試過程中。前者可以防止產生不合理的身體變形,而後者通過一些有意義的身體運動視頻幫助模型快速學習。為了製作富有運動細節的逼真高分辨率視頻,研究者提出一種有條件的 GAN,其中每個細節部分,例如頭和手,是自動放大過的以擁有自己的判別器。該方法與以前處理類似任務的 SOTA 方法相比效果更好。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

方法

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

圖 1:Speech2Video 系統 pipeline

如圖 1 所示,根據用於訓練 LSTM 網絡的內容,系統的輸入是音頻或文本。考慮到文本到語音(TTS)和語音到文本(STT)技術都已經成熟並且可商用,此處假定音頻和 text 是可互換的。即使從最先進的 STT 引擎中得到一些錯誤識別的單詞 / 字符,系統也可以容忍這些錯誤,LSTM 網絡的主要目的是將文本 / 音頻映射到身體形狀。錯誤的 STT 輸出通常是與真實發音相似的單詞,這意味着它們的拼寫也很可能是相似的。因此,它們最終將映射的身體形狀或多或少相似。

LSTM 的輸出是由 SMPL-X 參數化的一系列人體姿勢 [9]。SMPL-X 是一個人體、面部和手部的 3D 聯合模型,這一動態關節 3D 模型是由一個 2D 彩色骨架圖像序列可視化的。這些 2D 圖像被進一步輸入到 vid2vid 生成網絡[17] 中,以生成最終的現實人物圖像。

在成功同步語音和動作的同時,LSTM 大部分時間只能學習重複的人類動作,這會使視頻看起來很無聊。為了使人體動作更具表現力和變化性,研究者在一些關鍵詞出現時將特定姿勢加入 LSTM 的輸出動作中,例如,巨大、微小、高、低等。研究者建立了一個字典,將這些關鍵詞映射到它們相應的姿勢。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

圖 3 顯示了數據採集環境。模特站在相機和屏幕的前面,當他 / 她在屏幕上閱讀腳本時,研究者會捕獲這些視頻。最後再要求模特擺一些關鍵詞的動作,例如巨大、微小、向上、向下、我、你等等。

人體模型擬合

研究者首先將這些 2D 關鍵點作為人體模型的表示,並訓練了 LSTM 網絡,但結果不能令人滿意(如圖 4 所示)。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

最後採用了 SMPL-X,這是一種關節式 3D 人體模型。SMPL-X 使用運動學骨架模型對人體動力學進行建模,具有 54 個關節,包括脖子、手指、手臂、腿和腳。

詞典構建和關鍵姿勢插入

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

如圖 5 所示,研究者從錄製的視頻中手動選擇關鍵姿勢,並建立一個單詞 - 姿勢查詢字典。同樣,該姿勢表示為 106 個 SMPL-X 參數。關鍵姿勢可以是靜止的單幀姿勢或多幀運動,可以通過相同的方法將兩者插入到現有的人體骨骼視頻中。 

訓練視頻生成網絡

研究者採用 vid2vid 提出的生成網絡,將骨架圖像轉換為真實的人像。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

圖 7:用於訓練 vid2vid 的示例圖像對。雙手均帶有特殊的色環標記。

運行時間和硬件方面,系統中最耗時和最耗內存的階段是訓練 vid2vid 網絡。在 8 個 NVIDIA Tesla M40 24G GPU 集群上完成 20 個時期的訓練大約需要一周;測試階段要快得多,在單個 GPU 上生成一幀僅需約 0.5 秒。

結果

評估與分析

如表 1 所示,研究者將使用用戶研究的結果與 4 種 SOTA 方法進行比較,結果顯示,本文方法獲得了最佳的總體質量得分。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

此外,研究者使用 Inception 分數評估圖像生成結果,包括兩個方面:圖像質量和圖像多樣性。

語音驅動3D虛擬人,百度ACCV 2020最新文章解讀 - 天天要聞

為了評估最終輸出的視頻,研究者在 Amazon Mechanical Turk(AMT)上進行了人類主觀測試,共有 112 名參與者。研究者向參與者展示了總共五個視頻,其中四個是合成視頻,兩個由真實人的音頻生成,兩個由 TTS 音頻生成;剩下的是一個真實人物的短片。參與者以李克特量表(從 1(強烈不同意)到 5(強烈同意))對這些視頻的質量進行評分。其中包括:1)人體的完整性(沒有遺漏的身體部位或手指);2)視頻中人臉清晰;3)視頻中的人體動作(手臂,手,身體手勢)看起來自然流暢。4)身體的動作和手勢與聲音同步;5)視頻的整體視覺質量。

總結

Speech2Video 是一種新穎的框架,可以使用 3D 驅動的方法生成逼真的語音視頻,同時避免構建 3D 網格模型。作者在框架內建立了個性化關鍵手勢表,以處理數據稀疏性和多樣性的問題。更重要的是,作者利用 3D 骨骼約束來生成身體動力學,從而保證其姿勢在物理上是合理的。

參考鏈接:

1. Suwajanakorn, S., Seitz, S.M., Kemelmacher-Shlizerman, I.: Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG) 36 (2017) 95

2. Fried, O., Tewari, A., Zollh¨ofer, M., Finkelstein, A., Shechtman, E., Goldman, D.B., Genova, K., Jin, Z., Theobalt, C., Agrawala, M.: Text-based editing of talking-head video. arXiv preprint arXiv:1906.01524 (2019)

3. Taylor, S., Kim, T., Yue, Y., Mahler, M., Krahe, J., Rodriguez, A.G., Hodgins, J., Matthews, I.: A deep learning approach for generalized speech animation. ACM Transactions on Graphics (TOG) 36 (2017) 93

4. Kim, B.H., Ganapathi, V.: Lumi \ erenet: Lecture video synthesis from audio. arXiv preprint arXiv:1907.02253 (2019)

5. Pavllo, D., Feichtenhofer, C., Grangier, D., Auli, M.: 3d human pose estimation in video with temporal convolutions and semi-supervised training. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2019) 77537762

6. Cao, Z., Hidalgo, G., Simon, T., Wei, S.E., Sheikh, Y.: OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. In: arXiv preprint arXiv:1812.08008. (2018)

7. Pavlakos, G., Choutas, V., Ghorbani, N., Bolkart, T., Osman, A.A.A., Tzionas, D., Black, M.J.: Expressive body capture: 3d hands, face, and body from a single image. In: Proceedings IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2019)

8. Wang, T.C., Liu, M.Y., Zhu, J.Y., Liu, G., Tao, A., Kautz, J., Catanzaro, B.:Video-to-video synthesis. In: Advances in Neural Information Processing Systems (NeurIPS). (2018)

9. Romero, J., Tzionas, D., Black, M.J.: Embodied hands: Modeling and capturing hands and bodies together. ACM Transactions on Graphics (ToG) 36 (2017) 245

Amazon SageMaker1000元大禮包

ML訓練成本降90%,被全球上萬家公司使用,Amazon SageMaker是全託管機器學習平台,支持絕大多數機器學習框架與算法,並且用 IDE 寫代碼、可視化、Debug一氣呵成。

現在,我們準備了1000元的免費額度,開發者可以親自上手體驗,讓開發高質量模型變得更加輕鬆。

科技分類資訊推薦

讓藝術與技術雙向奔赴 - 天天要聞

讓藝術與技術雙向奔赴

【藝點·聚焦美院畢業季】作者:陳抱陽(中央美術學院實驗藝術與科技藝術學院教師)一年一度的美院畢業季如約而至,漫步在展館之中,似乎感受到一股蓬勃的「新技術風潮」:AI圖像生成,機械臂動作設計,融合傳感器與機械人系統的互動裝置……這些作品不僅橫
WWDC 2025前瞻:從iOS 19到AI和iPad功能再突破,共有5大看點 - 天天要聞

WWDC 2025前瞻:從iOS 19到AI和iPad功能再突破,共有5大看點

蘋果WWDC 2025馬上就要登場了,每年這個時候,果粉們最關心的無非兩個問題:蘋果又整了什麼新活兒?這次的升級,值得我們買單嗎?我今天提前幫大家把外媒最新爆料梳理了一遍,說實話,這次的變化不只是一次系統迭代,而像是一場徹底的「蘋果生態洗牌
小米汽車回應YU7門把手是否會凍住:可通過敲擊等方式破冰 - 天天要聞

小米汽車回應YU7門把手是否會凍住:可通過敲擊等方式破冰

站長之家(ChinaZ.com)5月24日 消息:近日,小米汽車官微開啟新一期網友問答互動,針對網友提出的「小米YU7的門把手冬天是否會被凍住」這一疑問,小米官方給出了詳細解答。小米官方介紹,小米YU7配備的電動內翻門把手在設計上頗具匠心。其不僅在美學層面符合設計要求,在可靠性和人體工程學方面也經過了充分驗證,功能體驗...
小米YU7閉式雙腔空簧系統詳解:比普通空簧系統更具優勢 - 天天要聞

小米YU7閉式雙腔空簧系統詳解:比普通空簧系統更具優勢

快科技5月25日消息,小米YU7配備的閉式雙腔空簧系統相比普通的空簧系統有哪些優勢?官方表示,與普通開式單腔空簧系統相比,閉式雙腔空簧系統在舒適性、操控性和響應速度等方面相對更有優勢,懸架高度調節速度大幅提升。小米YU7 Pro和小米YU7 Max搭載的閉式雙腔空氣彈簧系統支持5擋高度調節,高度調節範圍達75mm,最高離地...
三峽電源電站全電站工控系統技術升級改造完成 - 天天要聞

三峽電源電站全電站工控系統技術升級改造完成

5月22日,隨着X2號機組完成改造之後的啟動調試,三峽電源電站全電站工控系統技術升級改造圓滿完成。▲三峽電廠員工開展X2號機組改造後信號核對工作 本文攝影:田娜三峽電站總裝機容量達2250萬千瓦,是當今世界上最大的水電站,也是名副其實的「大國重器」。三峽電源電站是三峽電站的「保安衛士」,裝有兩台單機容量為5萬千...
一字之差凈化能力那麼強?一文讀懂小米凈煙機選購攻略 - 天天要聞

一字之差凈化能力那麼強?一文讀懂小米凈煙機選購攻略

前言:中國飲食文化多元化,不少地區的朋友喜歡麻辣、重辣、爆炒的口味和烹飪方式。這類型的烹飪的過程中產生的油煙、熱量、濃烈的氣味容易讓人卻步,尤其是對於一般小戶型的家庭來說,尤其是開放式廚房的油煙、氣味壓力都非常大。