數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品

2021年04月02日15:24:02 科學 1403

機器之心專欄

作者:高天虹

你準備好迎接與數字人共生的賽博朋克世界了嗎?

作為構建未來虛擬世界諸多應用的主幹,如何創造栩栩如生的虛擬數字人,一直是計算機視覺、計算機圖形學與多媒體等人工智能相關學科密切關注的重要研究課題。

近日,中國科學技術大學聯合的盧深視科技有限公司、浙江大學與清華大學共同打造的AD-NeRF技術,引發了學界及業界關注。

來自中科大張舉勇課題組等機構的研究者們在近期大火的神經輻射場(NeRF: Neural Radiance Fields)技術基礎上,提出了一種由語音信號直接生成說話人視頻的算法。僅需要目標人物幾分鐘的說話視頻,該方法即可實現對該人物超級逼真的形象復刻和語音驅動。

論文地址:https://arxiv.org/pdf/2103.11078.pdf

項目地址:https://yudongguo.github.io/ADNeRF/

「讓虛擬人構建變得觸手可及」

隨着人工智能技術走向沉穩落地,轉型探索新技術在社會中的實際應用,已經成為學術和工業界普遍達成的共識。在這一過程中,「數字虛擬人」無疑是主流視野下非常「吸睛」的一個概念。按照目標角色最終的呈現形態分類,數字虛擬人可以分為 2D 和 3D 類型,或是動漫、擬人和真實人物等種類。2021 年春晚,虛擬偶像洛天依首次被呈現在全國人民闔家團圓時刻的電視晚會舞台上。三月兩會,央視網打造的數字虛擬記者「小 C」,則以生動的角色形象,承擔起了同人大代表們實時連線,播報政策新聞的任務。

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

從上到下依次為三星虛擬數字人 Neon、虛擬偶像洛天依、電影角色阿麗塔。

據愛奇藝早前發佈的《2019 虛擬偶像觀察報告》,當今中國至少有 3.9 億人正在關注虛擬偶像。在抖音、快手和 B 站等各大短視頻平台上,至少活躍着上萬名數字虛擬人主播。不僅在泛娛樂領域,數字虛擬人還為其他一系列社會化應用提供了廣闊的想像空間:虛擬醫生、虛擬教師、虛擬客服、虛擬導購等等。

作為人機交互的重要媒介,如何高效構建虛擬人逼真的外表形象、自然的神態與動作,一直是該領域備受關注的研究熱點。其中,基於傳統計算機圖形學與動畫製作技術,構建生動且逼真的虛擬人行為動態(如與語音內容符合的嘴型與表情等)需要專業且複雜的人力工作,這大大限制了虛擬數字人的廣泛應用。近年來,基於深度學習方法的虛擬人構建技術取得了較好的突破。然而,現有基於學習的方法中,無論是基於圖像的生成對抗網絡(GAN)方法,還是基於三維人臉重建模型的人臉編輯 - 渲染方法,存在依賴大量訓練數據、生成結果質量不佳等問題。以 2017 年 Suwajanakorn 等人提出的 SynthesizingObama 工作為例,為了實現針對奧巴馬單一角色的語音驅動,該方法使用了奧巴馬本人高達 14 個小時的視頻訓練數據,才能保證最終較好的圖像和視頻效果。而眾多基於 GAN 的人臉語音驅動工作,則受限於 GAN 模型本身的訓練複雜度,通常只能輸出不超過 256x256 分辨率的視頻結果。

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

基於 GAN 的方法生成圖像分辨率低,而基於神經輻射場渲染的 AD-NeRF 支持任意分辨率渲染。

在 AD-NeRF 方法中,僅需要目標人物三至五分鐘的說話視頻,即可實現任意語音驅動該人物的效果。不僅如此,其生成結果具有高清的圖像質量和自然的面部神態,更是遠勝於此前的方法。這種「價廉物美」的方法,僅需要少量訓練數據即能生成高質量的最終結果,無疑是為創造虛擬人形象提供了一個強大且便捷的工具。

人臉魔術是如何做到的?

下面的示例圖顯示了 AD-NeRF 工作的算法流程框架:

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

(1)語音到動態神經輻射場的跨模態映射:為了刻畫說話人臉、軀幹以及背景的高質量細節與動態,作者們將 DeepSpeech 語音特徵同最新的神經輻射場方法(NeRF)相結合,即建模一個隱式函數 F,其輸入包括假設的相機位置,視線方向,以及對應的語音特徵,輸出沿每條射線上連續位點的顏色與密度值,通過沿射線積分,確定該射線指向的像素點的最終顏色值。

(2)完整、穩定的頭部與身體軀幹合成:針對人臉說話過程中臉部與軀幹運動並非完全統一的現象,作者們將原始的神經輻射場模型拆分成了兩個各自分工的隱式模型表示。首先,他們對訓練數據中每幀圖像進行了語義分割,其中人臉部分使用多幀連續光流估計出三維運動參數,直接轉換為假設的相機外參,用於訓練針對人頭部分的神經輻射場。而身體模塊,則在人頭模型的基礎上,將人頭運動參數作為額外的條件信息,用於控制身體部分的建模。這一設計帶來的明顯好處是解決了頭部 - 身體姿態不一致帶來的抖動效應:

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

(3)支持背景與視角編輯:由於神經輻射場所刻畫的隱式三維信息,作者們還進一步探索了任意替換背景和改變觀測角度的後續應用。而要實現這些應用,只需要在輸入測試音頻的同時,改變假設的相機外參以及背景圖片即可。這些應用的示例可參見下圖:

數字人黑科技面世,幾分鐘說話視頻即可復刻,中科大等機構出品 - 天天要聞

AD-NeRF 帶來了哪些可能性?

曾幾何時,數字人還是一個備受科幻小說和電影喜愛的賽博朋克題材;如今,隨着一項項數字虛擬人創作技術的迭代更新,這一充滿未來感的概念正以前所未有的速度走入尋常百姓家。那麼,AD-NeRF 究竟會給哪些實際的虛擬人應用帶來技術上的可能性呢?

首先是在視頻會議領域,正如上文中所展示的一樣,AD-NeRF 可以輕鬆支持對任意人物形象的語音驅動。對於帶寬需求較大的視頻會議應用而言,可能將不再需要實時傳輸視頻的編解碼信號,而只需音頻信號即驅動說話人本身的虛擬形象。而 AD-NeRF 所支持的背景替換和姿態編輯,搭配起 AR 頭盔等設備,更是可以讓你恍如身臨其境一般,在一個可以任意創作的三維情景中同對方對話。

其次,由於 AD-NeRF 僅僅需要幾分鐘的視頻用於訓練特定人物形象的動態輻射場。假如你想留下某個至親好友的數字形象,永遠能夠同他面對面交流,那麼 AD-NeRF 的算法設計,將大大簡化這個數字形象的製作難度——在賽博空間永生或許不再是一場夢。

最後,AD-NeRF 對於改善當前商用的數字虛擬人搭建流程,無疑具有強大的潛力。無論是創造逼真的虛擬主播,親切的虛擬導購,或是嚴肅的虛擬教師等等,AD-NeRF 都可以「手到擒來」。只需要一個表現力豐富的演員錄製一段語音視頻,剩下的就可以交給自動化的語音驅動技術了,其在商業創新上的應用前景非常廣闊。

在擁有強大技術賦能的同時,另一方面,越來越低的門檻和數據需求也讓數字虛擬人的創作面臨著諸多風險與爭議。比如用假冒的數字形象盜取他人的財產或者偽造視頻散布虛假新聞,甚至是用於故意貶損他人侮辱人格等現象。去年,以 DeepFake、Zao 等一系列「AI 換臉」的人工智能應用,就曾經引發了全社會基於道德和隱私層面廣泛的討論,相應的,在學術界也催生了一系列以 DeepForensics 為主題的「換臉檢測」研究。

現在,AD-NeRF 從應用層面以一種更為高級的底層算法,即通過神經輻射場隱式地建模三維運動細節,渲染了完整且逼真的圖片幀,對於真假人臉視頻的判別和檢測,也提出了更有價值的挑戰。

「魔高一尺,道高一丈」,出於安防和隱私保護的需求,更多強大的防偽和檢測算法在未來勢必與虛擬人技術一道,成為共同競技和發展的雙子星。站在公平與正義的角度,虛擬人這一數字時代的產物,同樣需要被納入法律法規和行業條例的約束之中。相信在未來,虛擬數字人將成為智能方便可信賴的代名詞,為改善這個世界的信息交流與人際互動提供更大的幫助。

科學分類資訊推薦

中國交付全球最大「人造太陽」重要部件 - 天天要聞

中國交付全球最大「人造太陽」重要部件

近日,全球最大「人造太陽」國際熱核聚變實驗堆(ITER)計劃磁體饋線採購包項目迎來關鍵節點,其最後一套校正場線圈內饋線部件在合肥竣工,並交付起運位於法國的ITER現場。這標誌着ITER磁體饋線系統中所有超大部件的研製順利完成。ITER磁體饋線系統由中國科學院合肥物質科學研究院等離子體物理研究所研製,被稱為ITER磁體系...
張振豐調研溫州學研究聯合會 構建中國學視野下的溫州學研究體系 - 天天要聞

張振豐調研溫州學研究聯合會 構建中國學視野下的溫州學研究體系

4月13日,副省長、市委書記張振豐在溫州學研究聯合會調研時強調,要深入學習貫徹習近平文化思想和習近平總書記考察浙江重要講話精神,堅持「立足溫州、研究溫州、服務溫州」,深化時間維度、放大空間維度,貫通歷史研究溫州、跳出溫州研究溫州,努力打造溫州建設高水平文化強市的重要窗口、具有全國影響力的地方學術研究的...
土撥鼠等動植物不得攜帶入境!關於國門生物安全,你要知道這些 - 天天要聞

土撥鼠等動植物不得攜帶入境!關於國門生物安全,你要知道這些

極目新聞記者 張秀娟通訊員 趙夢潔 黃曉彧 林敏「小朋友們,外來入侵物種包括哪些呢?」「在咱們出國旅遊前,需注意哪些問題呢?」4月12日,在第十個全民國家安全教育日來臨之際,武漢海關在武漢天河國際機場開展了一場別開生面的「海關開放日」活動。15名小學生化身「國門小衛士」,零距離體驗、參與海關全民國家安全教育...
月球上跳一跳,輕鬆打破跳高世界紀錄!這個展會,解密引力奧秘 - 天天要聞

月球上跳一跳,輕鬆打破跳高世界紀錄!這個展會,解密引力奧秘

頂端新聞記者 楊逍 文 時碩 圖如果你嚮往星辰宇宙,那你是否幻想過在其他星球上跳躍?在本次國防展的「星球重力」互動體驗機前,你每次的縱身一躍,都會化身成屏幕中身穿宇航員服的小人,來到月球、金星、火星、火衛二、土衛一等星體上,屏幕的上方記錄著你的跳躍高度。在月球,你輕輕一躍就能達到3米高度,輕鬆打破2.45米...
4月13日石家莊強風顯著增強的原因 - 天天要聞

4月13日石家莊強風顯著增強的原因

4月13日石家莊強風顯著增強的原因,是多重氣象條件和地理因素共同作用的結果。根據氣象監測和專家分析,此次強風具有以下關鍵成因:一、極端天氣系統的疊加效應1.
神十九乘組「太空出差」倒計時:各項空間科學實(試)驗穩步推進 - 天天要聞

神十九乘組「太空出差」倒計時:各項空間科學實(試)驗穩步推進

IT之家 4 月 13 日消息,據央視網報道,神舟十九號航天員乘組的「太空出差」之旅即將進入倒計時。上周,神十九乘組穩步推進各項空間科學實(試)驗,在開展站內環境監測、設備檢查維護等工作同時,積極開展健康維護。神十九乘組利用腦電設備開展了多項實驗的測試工作,地面科研人員將利用獲取的數據探究重力對視覺運動信息...
感受活力丨機械人正在進化中……這樣的「生活搭子」,你喜歡嗎? - 天天要聞

感受活力丨機械人正在進化中……這樣的「生活搭子」,你喜歡嗎?

模仿人類奔跑、跳躍、空翻,像人一樣說話、思考甚至察言觀色。這不是科幻電影對未來的虛構,而是2025中國機械人產業闊步向前的現實。小時候的你,是不是也曾暢想過:家裡有一個機械人,能買菜、做飯、鋪床、掃地,幫你干農活,還可以照顧家裡老人……時至今日,這些「天馬行空」的想像,正在變成現實。「12點了,您該吃藥了...