機器之心專欄
作者:高天虹
你準備好迎接與數字人共生的賽博朋克世界了嗎?
作為構建未來虛擬世界諸多應用的主幹,如何創造栩栩如生的虛擬數字人,一直是計算機視覺、計算機圖形學與多媒體等人工智能相關學科密切關注的重要研究課題。
近日,中國科學技術大學聯合的盧深視科技有限公司、浙江大學與清華大學共同打造的AD-NeRF技術,引發了學界及業界關注。
來自中科大張舉勇課題組等機構的研究者們在近期大火的神經輻射場(NeRF: Neural Radiance Fields)技術基礎上,提出了一種由語音信號直接生成說話人視頻的算法。僅需要目標人物幾分鐘的說話視頻,該方法即可實現對該人物超級逼真的形象復刻和語音驅動。
論文地址:https://arxiv.org/pdf/2103.11078.pdf
項目地址:https://yudongguo.github.io/ADNeRF/
「讓虛擬人構建變得觸手可及」
隨着人工智能技術走向沉穩落地,轉型探索新技術在社會中的實際應用,已經成為學術和工業界普遍達成的共識。在這一過程中,「數字虛擬人」無疑是主流視野下非常「吸睛」的一個概念。按照目標角色最終的呈現形態分類,數字虛擬人可以分為 2D 和 3D 類型,或是動漫、擬人和真實人物等種類。2021 年春晚,虛擬偶像洛天依首次被呈現在全國人民闔家團圓時刻的電視晚會舞台上。三月兩會,央視網打造的數字虛擬記者「小 C」,則以生動的角色形象,承擔起了同人大代表們實時連線,播報政策新聞的任務。
從上到下依次為三星虛擬數字人 Neon、虛擬偶像洛天依、電影角色阿麗塔。
據愛奇藝早前發布的《2019 虛擬偶像觀察報告》,當今中國至少有 3.9 億人正在關注虛擬偶像。在抖音、快手和 B 站等各大短視頻平台上,至少活躍着上萬名數字虛擬人主播。不僅在泛娛樂領域,數字虛擬人還為其他一系列社會化應用提供了廣闊的想象空間:虛擬醫生、虛擬教師、虛擬客服、虛擬導購等等。
作為人機交互的重要媒介,如何高效構建虛擬人逼真的外表形象、自然的神態與動作,一直是該領域備受關注的研究熱點。其中,基於傳統計算機圖形學與動畫製作技術,構建生動且逼真的虛擬人行為動態(如與語音內容符合的嘴型與表情等)需要專業且複雜的人力工作,這大大限制了虛擬數字人的廣泛應用。近年來,基於深度學習方法的虛擬人構建技術取得了較好的突破。然而,現有基於學習的方法中,無論是基於圖像的生成對抗網絡(GAN)方法,還是基於三維人臉重建模型的人臉編輯 - 渲染方法,存在依賴大量訓練數據、生成結果質量不佳等問題。以 2017 年 Suwajanakorn 等人提出的 SynthesizingObama 工作為例,為了實現針對奧巴馬單一角色的語音驅動,該方法使用了奧巴馬本人高達 14 個小時的視頻訓練數據,才能保證最終較好的圖像和視頻效果。而眾多基於 GAN 的人臉語音驅動工作,則受限於 GAN 模型本身的訓練複雜度,通常只能輸出不超過 256x256 分辨率的視頻結果。
基於 GAN 的方法生成圖像分辨率低,而基於神經輻射場渲染的 AD-NeRF 支持任意分辨率渲染。
在 AD-NeRF 方法中,僅需要目標人物三至五分鐘的說話視頻,即可實現任意語音驅動該人物的效果。不僅如此,其生成結果具有高清的圖像質量和自然的面部神態,更是遠勝於此前的方法。這種「價廉物美」的方法,僅需要少量訓練數據即能生成高質量的最終結果,無疑是為創造虛擬人形象提供了一個強大且便捷的工具。
人臉魔術是如何做到的?
下面的示例圖顯示了 AD-NeRF 工作的算法流程框架:
(1)語音到動態神經輻射場的跨模態映射:為了刻畫說話人臉、軀幹以及背景的高質量細節與動態,作者們將 DeepSpeech 語音特徵同最新的神經輻射場方法(NeRF)相結合,即建模一個隱式函數 F,其輸入包括假設的相機位置,視線方向,以及對應的語音特徵,輸出沿每條射線上連續位點的顏色與密度值,通過沿射線積分,確定該射線指向的像素點的最終顏色值。
(2)完整、穩定的頭部與身體軀幹合成:針對人臉說話過程中臉部與軀幹運動並非完全統一的現象,作者們將原始的神經輻射場模型拆分成了兩個各自分工的隱式模型表示。首先,他們對訓練數據中每幀圖像進行了語義分割,其中人臉部分使用多幀連續光流估計出三維運動參數,直接轉換為假設的相機外參,用於訓練針對人頭部分的神經輻射場。而身體模塊,則在人頭模型的基礎上,將人頭運動參數作為額外的條件信息,用於控制身體部分的建模。這一設計帶來的明顯好處是解決了頭部 - 身體姿態不一致帶來的抖動效應:
(3)支持背景與視角編輯:由於神經輻射場所刻畫的隱式三維信息,作者們還進一步探索了任意替換背景和改變觀測角度的後續應用。而要實現這些應用,只需要在輸入測試音頻的同時,改變假設的相機外參以及背景圖片即可。這些應用的示例可參見下圖:
AD-NeRF 帶來了哪些可能性?
曾幾何時,數字人還是一個備受科幻小說和電影喜愛的賽博朋克題材;如今,隨着一項項數字虛擬人創作技術的迭代更新,這一充滿未來感的概念正以前所未有的速度走入尋常百姓家。那麼,AD-NeRF 究竟會給哪些實際的虛擬人應用帶來技術上的可能性呢?
首先是在視頻會議領域,正如上文中所展示的一樣,AD-NeRF 可以輕鬆支持對任意人物形象的語音驅動。對於帶寬需求較大的視頻會議應用而言,可能將不再需要實時傳輸視頻的編解碼信號,而只需音頻信號即驅動說話人本身的虛擬形象。而 AD-NeRF 所支持的背景替換和姿態編輯,搭配起 AR 頭盔等設備,更是可以讓你恍如身臨其境一般,在一個可以任意創作的三維情景中同對方對話。
其次,由於 AD-NeRF 僅僅需要幾分鐘的視頻用於訓練特定人物形象的動態輻射場。假如你想留下某個至親好友的數字形象,永遠能夠同他面對面交流,那麼 AD-NeRF 的算法設計,將大大簡化這個數字形象的製作難度——在賽博空間永生或許不再是一場夢。
最後,AD-NeRF 對於改善當前商用的數字虛擬人搭建流程,無疑具有強大的潛力。無論是創造逼真的虛擬主播,親切的虛擬導購,或是嚴肅的虛擬教師等等,AD-NeRF 都可以「手到擒來」。只需要一個表現力豐富的演員錄製一段語音視頻,剩下的就可以交給自動化的語音驅動技術了,其在商業創新上的應用前景非常廣闊。
在擁有強大技術賦能的同時,另一方面,越來越低的門檻和數據需求也讓數字虛擬人的創作面臨著諸多風險與爭議。比如用假冒的數字形象盜取他人的財產或者偽造視頻散布虛假新聞,甚至是用於故意貶損他人侮辱人格等現象。去年,以 DeepFake、Zao 等一系列「AI 換臉」的人工智能應用,就曾經引發了全社會基於道德和隱私層面廣泛的討論,相應的,在學術界也催生了一系列以 DeepForensics 為主題的「換臉檢測」研究。
現在,AD-NeRF 從應用層面以一種更為高級的底層算法,即通過神經輻射場隱式地建模三維運動細節,渲染了完整且逼真的圖片幀,對於真假人臉視頻的判別和檢測,也提出了更有價值的挑戰。
「魔高一尺,道高一丈」,出於安防和隱私保護的需求,更多強大的防偽和檢測算法在未來勢必與虛擬人技術一道,成為共同競技和發展的雙子星。站在公平與正義的角度,虛擬人這一數字時代的產物,同樣需要被納入法律法規和行業條例的約束之中。相信在未來,虛擬數字人將成為智能方便可信賴的代名詞,為改善這個世界的信息交流與人際互動提供更大的幫助。