數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品

2021年04月02日15:24:02 科學 1403

機器之心專欄

作者:高天虹

你準備好迎接與數字人共生的賽博朋克世界了嗎?

作為構建未來虛擬世界諸多應用的主幹,如何創造栩栩如生的虛擬數字人,一直是計算機視覺、計算機圖形學與多媒體等人工智慧相關學科密切關注的重要研究課題。

近日,中國科學技術大學聯合的盧深視科技有限公司、浙江大學與清華大學共同打造的AD-NeRF技術,引發了學界及業界關注。

來自中科大張舉勇課題組等機構的研究者們在近期大火的神經輻射場(NeRF: Neural Radiance Fields)技術基礎上,提出了一種由語音信號直接生成說話人視頻的演算法。僅需要目標人物幾分鐘的說話視頻,該方法即可實現對該人物超級逼真的形象復刻和語音驅動。

論文地址:https://arxiv.org/pdf/2103.11078.pdf

項目地址:https://yudongguo.github.io/ADNeRF/

「讓虛擬人構建變得觸手可及」

隨著人工智慧技術走向沉穩落地,轉型探索新技術在社會中的實際應用,已經成為學術和工業界普遍達成的共識。在這一過程中,「數字虛擬人」無疑是主流視野下非常「吸睛」的一個概念。按照目標角色最終的呈現形態分類,數字虛擬人可以分為 2D 和 3D 類型,或是動漫、擬人和真實人物等種類。2021 年春晚,虛擬偶像洛天依首次被呈現在全國人民闔家團圓時刻的電視晚會舞台上。三月兩會,央視網打造的數字虛擬記者「小 C」,則以生動的角色形象,承擔起了同人大代表們實時連線,播報政策新聞的任務。

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

從上到下依次為三星虛擬數字人 Neon、虛擬偶像洛天依、電影角色阿麗塔。

據愛奇藝早前發布的《2019 虛擬偶像觀察報告》,當今中國至少有 3.9 億人正在關注虛擬偶像。在抖音、快手和 B 站等各大短視頻平台上,至少活躍著上萬名數字虛擬人主播。不僅在泛娛樂領域,數字虛擬人還為其他一系列社會化應用提供了廣闊的想像空間:虛擬醫生、虛擬教師、虛擬客服、虛擬導購等等。

作為人機交互的重要媒介,如何高效構建虛擬人逼真的外表形象、自然的神態與動作,一直是該領域備受關注的研究熱點。其中,基於傳統計算機圖形學與動畫製作技術,構建生動且逼真的虛擬人行為動態(如與語音內容符合的嘴型與表情等)需要專業且複雜的人力工作,這大大限制了虛擬數字人的廣泛應用。近年來,基於深度學習方法的虛擬人構建技術取得了較好的突破。然而,現有基於學習的方法中,無論是基於圖像的生成對抗網路(GAN)方法,還是基於三維人臉重建模型的人臉編輯 - 渲染方法,存在依賴大量訓練數據、生成結果質量不佳等問題。以 2017 年 Suwajanakorn 等人提出的 SynthesizingObama 工作為例,為了實現針對奧巴馬單一角色的語音驅動,該方法使用了奧巴馬本人高達 14 個小時的視頻訓練數據,才能保證最終較好的圖像和視頻效果。而眾多基於 GAN 的人臉語音驅動工作,則受限於 GAN 模型本身的訓練複雜度,通常只能輸出不超過 256x256 解析度的視頻結果。

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

基於 GAN 的方法生成圖像解析度低,而基於神經輻射場渲染的 AD-NeRF 支持任意解析度渲染。

在 AD-NeRF 方法中,僅需要目標人物三至五分鐘的說話視頻,即可實現任意語音驅動該人物的效果。不僅如此,其生成結果具有高清的圖像質量和自然的面部神態,更是遠勝於此前的方法。這種「價廉物美」的方法,僅需要少量訓練數據即能生成高質量的最終結果,無疑是為創造虛擬人形象提供了一個強大且便捷的工具。

人臉魔術是如何做到的?

下面的示例圖顯示了 AD-NeRF 工作的演算法流程框架:

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

(1)語音到動態神經輻射場的跨模態映射:為了刻畫說話人臉、軀幹以及背景的高質量細節與動態,作者們將 DeepSpeech 語音特徵同最新的神經輻射場方法(NeRF)相結合,即建模一個隱式函數 F,其輸入包括假設的相機位置,視線方向,以及對應的語音特徵,輸出沿每條射線上連續位點的顏色與密度值,通過沿射線積分,確定該射線指向的像素點的最終顏色值。

(2)完整、穩定的頭部與身體軀幹合成:針對人臉說話過程中臉部與軀幹運動並非完全統一的現象,作者們將原始的神經輻射場模型拆分成了兩個各自分工的隱式模型表示。首先,他們對訓練數據中每幀圖像進行了語義分割,其中人臉部分使用多幀連續光流估計出三維運動參數,直接轉換為假設的相機外參,用於訓練針對人頭部分的神經輻射場。而身體模塊,則在人頭模型的基礎上,將人頭運動參數作為額外的條件信息,用於控制身體部分的建模。這一設計帶來的明顯好處是解決了頭部 - 身體姿態不一致帶來的抖動效應:

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

(3)支持背景與視角編輯:由於神經輻射場所刻畫的隱式三維信息,作者們還進一步探索了任意替換背景和改變觀測角度的後續應用。而要實現這些應用,只需要在輸入測試音頻的同時,改變假設的相機外參以及背景圖片即可。這些應用的示例可參見下圖:

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

AD-NeRF 帶來了哪些可能性?

曾幾何時,數字人還是一個備受科幻小說和電影喜愛的賽博朋克題材;如今,隨著一項項數字虛擬人創作技術的迭代更新,這一充滿未來感的概念正以前所未有的速度走入尋常百姓家。那麼,AD-NeRF 究竟會給哪些實際的虛擬人應用帶來技術上的可能性呢?

首先是在視頻會議領域,正如上文中所展示的一樣,AD-NeRF 可以輕鬆支持對任意人物形象的語音驅動。對於帶寬需求較大的視頻會議應用而言,可能將不再需要實時傳輸視頻的編解碼信號,而只需音頻信號即驅動說話人本身的虛擬形象。而 AD-NeRF 所支持的背景替換和姿態編輯,搭配起 AR 頭盔等設備,更是可以讓你恍如身臨其境一般,在一個可以任意創作的三維情景中同對方對話。

其次,由於 AD-NeRF 僅僅需要幾分鐘的視頻用於訓練特定人物形象的動態輻射場。假如你想留下某個至親好友的數字形象,永遠能夠同他面對面交流,那麼 AD-NeRF 的演算法設計,將大大簡化這個數字形象的製作難度——在賽博空間永生或許不再是一場夢。

最後,AD-NeRF 對於改善當前商用的數字虛擬人搭建流程,無疑具有強大的潛力。無論是創造逼真的虛擬主播,親切的虛擬導購,或是嚴肅的虛擬教師等等,AD-NeRF 都可以「手到擒來」。只需要一個表現力豐富的演員錄製一段語音視頻,剩下的就可以交給自動化的語音驅動技術了,其在商業創新上的應用前景非常廣闊。

在擁有強大技術賦能的同時,另一方面,越來越低的門檻和數據需求也讓數字虛擬人的創作面臨著諸多風險與爭議。比如用假冒的數字形象盜取他人的財產或者偽造視頻散布虛假新聞,甚至是用於故意貶損他人侮辱人格等現象。去年,以 DeepFake、Zao 等一系列「AI 換臉」的人工智慧應用,就曾經引發了全社會基於道德和隱私層面廣泛的討論,相應的,在學術界也催生了一系列以 DeepForensics 為主題的「換臉檢測」研究。

現在,AD-NeRF 從應用層面以一種更為高級的底層演算法,即通過神經輻射場隱式地建模三維運動細節,渲染了完整且逼真的圖片幀,對於真假人臉視頻的判別和檢測,也提出了更有價值的挑戰。

「魔高一尺,道高一丈」,出於安防和隱私保護的需求,更多強大的防偽和檢測演算法在未來勢必與虛擬人技術一道,成為共同競技和發展的雙子星。站在公平與正義的角度,虛擬人這一數字時代的產物,同樣需要被納入法律法規和行業條例的約束之中。相信在未來,虛擬數字人將成為智能方便可信賴的代名詞,為改善這個世界的信息交流與人際互動提供更大的幫助。

科學分類資訊推薦

警惕藍天下的「隱形殺手」!嚴重可致肺氣腫→ - 天天要聞

警惕藍天下的「隱形殺手」!嚴重可致肺氣腫→

進入夏季陽光明媚的日子多了起來但看似沒有污染的藍天下可能隱藏著「健康殺手」——臭氧近日中國環境監測總站消息5月下半月華北中南部和成都平原部分城市可能出現臭氧中度污染西北地區北部和西部受沙塵天氣影響可能出現中至重度污染什麼是臭氧?臭氧在什麼時
香港科技大學成功研製出新型彈性合金,溫度變化達普通金屬20倍 - 天天要聞

香港科技大學成功研製出新型彈性合金,溫度變化達普通金屬20倍

香港科技大學(港科大)工學院的研究團隊成功研製出一款新型彈性合金Ti₇₈Nb₂₂,該材料具備高效固態制熱效能,而且在彈性變形過程中所表現的可逆溫度變化能力,為普通金屬的20倍,為傳統的蒸氣壓縮製冷和熱泵技術提供環保的綠色替代方案。港科大機械及航空航天工程學系教授孫慶平(左)及研究助理教授黎橋(右)展示其團...
絕密檔案揭秘:阿拉斯加「外星基地」引爆全美UFO追蹤熱潮 - 天天要聞

絕密檔案揭秘:阿拉斯加「外星基地」引爆全美UFO追蹤熱潮

位於阿拉斯加中部的海斯山,近期因一份解密的美國中情局(CIA)文件成為全球外星文明研究者的焦點。這座海拔8000英尺的雪山地處被稱為「阿拉斯加三角」的神秘區域,過去半個世紀記錄到超過2000起離奇失蹤事件與數百次不明飛行物目擊報告。隨著解密文件提及「外星基地」的存在,這座終年積雪的山峰正吸引著探險者、陰謀論者...
哥倫比亞驚現無接縫金屬球體,外星科技還是人類傑作? - 天天要聞

哥倫比亞驚現無接縫金屬球體,外星科技還是人類傑作?

2025年3月,哥倫比亞布加鎮上空出現的一顆神秘金屬球體引發全球關注。這顆表面無任何焊接痕迹的三層球體被目擊者拍攝到飛行軌跡後墜落地面,當地研究者何塞·路易斯·貝拉斯克斯認為其可能具備外星科技特徵,而科學家朱莉婭·莫斯布里奇則提出不同看法,認為需謹慎驗證其來源。這一發現再次將公眾視線引向天空中的未解之謎...
中國工程院首批院士、著名醫學家顧玉東逝世,享年87歲 - 天天要聞

中國工程院首批院士、著名醫學家顧玉東逝世,享年87歲

5月25日,復旦大學附屬華山醫院發布訃告:著名醫學家、教育家顧玉東院士逝世,享年87歲。 中國共產黨優秀黨員,著名醫學家、教育家,中國手外科、顯微外科、肢體功能修復重建外科的奠基者和開拓者之一,中國工程院首批院士,黨的十五大代表,國家老年疾病臨床醫學研究中心(華山)主任,《中華手外科雜誌》總編輯,國家衛生...