自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫

2022年10月09日20:41:40 資訊 1035

機器之心報道

編輯:張倩

這個框架能將人物視頻轉成動畫,還是高清、高度可控的。

在社交網絡、短視頻平台上使用卡通頭像錄製視頻是很多人喜歡的玩法,但我們也會發現一些問題,比如頭像調整範圍比較窄,和本人沒有那麼像等。

近日,來自新加坡南洋理工大學的一項相關研究在 reddit、推特上都收穫了上千的點贊量。他們開發了一個能夠進行可控高分辨率人像視頻風格轉換的框架——VToonify,在風格控制的靈活性、生成視頻的質量、時間上的連貫性等方面都有着出色的表現。

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

你可以根據自己的需要靈活調整生成的風格類型以及卡通化的程度等指標:

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

從 demo 中可以看出,VToonify 生成的這些人像不僅具有高度可調的卡通風格,而且包含了人像的很多細節,有一種千人千面的感覺。因此,不少網友表示,有了這個工具,動畫電影做起來豈不是很容易?

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

還有人暢想將其應用到 VR 領域。

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

當被問及能否當實時濾鏡用時,作者表示:目前模型還很大,做到實時還需要一些工程努力。

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

論文概覽

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

  • 論文鏈接:https://arxiv.org/pdf/2209.11224.pdf
  • 項目鏈接: https://github.com/williamyang1991/VToonify
  • demo 鏈接: https://huggingface.co/spaces/PKUWilliamYang/VToonify
  • colab 鏈接:https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb

生成高質量的藝術人像視頻是計算機圖形學和計算機視覺中的一個重要任務。雖然基於強大的 StyleGAN,研究者們已經提出了一系列成功的人像卡通模型,但這些面向圖像的方法在應用於視頻時存在明顯的局限性,如固定幀大小、人臉對齊要求、缺少非面部細節和時間不一致等。

也就是說,一個高效的視頻卡通化方法需要克服以下挑戰:

  • 能夠處理未對齊的人臉和不同的視頻大小,以保持運動自然。增大視頻尺寸或使用廣角可以捕捉更多的信息,防止人臉移動出幀;
  • 為了匹配目前廣泛使用的高清設備,生成的視頻要有足夠高的分辨率;
  • 要想構建一個實用的用戶交互系統,新方法應該提供靈活的風格控制,讓用戶調整並選擇自己喜歡的風格。

為了滿足以上需求,研究者們提出了專門用於視頻卡通化的混合框架——VToonify。

具體來說,他們首先分析了 StyleGAN 的平移同變性,這是克服「固定幀大小」局限性的關鍵。如下圖 2(c)所示,VToonify 結合了基於 StyleGAN 的框架和圖像轉換框架的優點,實現了可控的高分辨率人像視頻風格轉換。

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

他們採用[Pinkney and Adler 2020] 的 StyleGAN 架構進行高分辨率的視頻風格轉換,但通過刪除固定大小的輸入特徵和低分辨率層來調整 StyleGAN,構建了一個全新的全卷積編碼器 - 生成器架構,類似於圖像轉換框架中的架構,支持不同的視頻大小。

除了原始的高級風格代碼外,他們還訓練編碼器提取輸入幀的多尺度內容特徵作為生成器的附加內容條件,以便在風格轉換過程中更好地保存幀的關鍵視覺信息。

他們遵循 [Chen et al. 2019; Viazovetskyi et al. 2020] 的做法,在合成的配對數據上蒸餾 StyleGAN。

此外,他們還進一步提出了基於單一合成數據模擬相機運動的閃爍抑制損失來消除閃爍。

因此,VToonify 無需真實數據、複雜的視頻合成和顯式的光流計算,就可以學習快速連貫的視頻轉換。

不同於 [Chen et al. 2019; Viazovetskyi et al. 2020] 中標準的圖像轉換框架,VToonify 將 StyleGAN 模型合併到生成器中,以蒸餾數據和模型。因此,VToonify 繼承了 StyleGAN 的風格調整靈活性。通過重用 StyleGAN 作為生成器,研究者只需要訓練編碼器,大大減少了訓練時間和訓練難度。

根據上述做法,研究者提出了基於兩個代表性 StyleGAN 主幹——Toonify [Pinkney and Adler 2020] 和 DualStyleGAN [Yang et al. 2022]——的兩種 VToonify 變體,分別用於 collection-based 和 exemplar-based 的人像視頻卡通化。

前者根據數據集的整體風格對人臉進行風格化,而後者則使用數據集中的一張圖像來指定更精細的風格,如圖 1 的右上角所示。

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

研究者通過採用 DualStyleGAN 的風格控制模塊 [Yang et al. 2022] 來調整編碼器的特徵,並精心設計數據生成和訓練目標。VToonify 繼承了 DualStyleGAN 靈活的風格控制和風格程度的調整,並進一步將這些功能擴展到視頻(如圖 1 右上角所示)

collection-based 人像視頻風格轉換

在 collection-based 人像視頻風格轉換中,研究者利用具有代表性的 Toonify 作為主幹,它使用原始的 StyleGAN 架構,並僅以風格代碼為條件。

如圖 4 所示,collection-based VToonify 框架包含構建在 Toonify 之上的編碼器和生成器。接受視頻幀並生成內容特徵,然後將這些特徵輸入以生成最終的風格化人像。與現有的使用整個 StyleGAN 架構的基於 StyleGAN 的框架不同,他們只使用最高級的 11 層 StyleGAN 來構建。正如 [Karras et al. 2019] 中所分析的,StyleGAN 的低分辨率層和高分辨率層分別主要捕獲與結構相關的風格和顏色 / 紋理風格。因此,的主要任務是對內容特徵進行上採樣,並為它們渲染風格化的顏色和紋理。

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

exemplar-based 人像視頻風格轉換

在 exemplar-based 人像視頻風格轉換中,研究者使用 DualStyleGAN 作為主幹,它向 StyleGAN 添加了一個外部風格路徑,並以內部風格代碼、外部風格代碼和風格程度為條件。內部風格代碼描述了人臉的特徵,外部風格代碼描述了藝術人像外部的結構和色彩風格。結構風格度_和顏色風格度_決定了所應用風格的強度。

exemplar-based 框架和上面提到的 collection-based 框架有很多共同之處,它通過兩方面修改來實現靈活的風格控制,一是藉助 Modified ModRe 實現結構風格控制,二是添加了 Style-Degree-Aware 融合模塊。完整架構如圖 9 所示。

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

實驗結果

實驗結果表明,VToonify 生成的風格化幀不僅與主幹幀一樣質量高,而且更好地保留了輸入幀的細節。

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

自導自演皮克斯動畫不再是夢,這個工具實現了真人視頻轉動畫 - 天天要聞

更多細節請參見原論文。

資訊分類資訊推薦

范瑋琪力挺陳建州,第三位受害人站出來,好姐妹makiyo也補刀 - 天天要聞

范瑋琪力挺陳建州,第三位受害人站出來,好姐妹makiyo也補刀

#陳建州風波牽連多位明星#近期,台灣省藝人陳建州性騷擾事件越演越烈,已經有三位女藝人大牙、郭源元和黑澀會美眉妖嬌出來指控陳建州對她們的性騷擾行為。陳建州妻子范瑋琪則發文力挺老公。范瑋琪發文表示自己孕期一直在家,外出黑人一直陪同,黑人不可能存在帶女性回家的可能。
一戰華工的珍貴照片 - 天天要聞

一戰華工的珍貴照片

赴歐勞工上船前消毒洗澡,發放印有編號的外衣、褲子、腰帶及內衣、草帽及鞋襪等,還統一配置毛毯、鋪蓋、水杯和鐵飯碗的工具包,並在離國前集中在威海等地稍作軍訓。
陽後還有這個後遺症,向風而行徵文 - 天天要聞

陽後還有這個後遺症,向風而行徵文

#頭條創作挑戰賽第二期#​#暖冬的生活記#​#電視劇向風而來行徵文#​最近我右側的眼睛好難受,每天睡醒就然糊糊的,一天感覺看東西不太清楚,視力下降很明顯,頭也暈暈的,悶悶的,不是很舒服。我不知道其他人陽後有沒有這個癥狀。
北大高材生感嘆道:“這輩子我就沒說過幾次真話!” - 天天要聞

北大高材生感嘆道:“這輩子我就沒說過幾次真話!”

我有一個姓於的朋友,大家都管他叫老於。老於今年五七多歲,北大畢業,清華讀的碩士,北師大讀的博士,妥妥的學霸。他現在是一家廳級單位的副總工,待遇也不錯。在我們這些人眼裡,那可是人中龍鳳,幾乎是神一樣的存在。有一次幾個朋友一起喝酒,喝多以後,大家照例吹捧這位學霸朋友。
畫家把字畫作價3萬放老闆店裡寄賣,老闆索要2成傭金,被畫家拒絕 - 天天要聞

畫家把字畫作價3萬放老闆店裡寄賣,老闆索要2成傭金,被畫家拒絕

街上有那種賣字畫的店鋪,這種店鋪非常的少,因為懂畫的人也少。店鋪的老闆是個愛畫之人,不是名家的畫,只要是畫的好,價格合適,他也會收下,或者幫忙寄賣。王立是一名沒有任何名氣的畫家,經常會拿一些畫到店裡寄賣,幾百到幾千的價格都有。這一天,王立又拿來一幅畫,說是要寄賣。
04年遼寧老漢撿石頭修豬圈,發現"白髮人頭",專家趕來:終於找到了 - 天天要聞

04年遼寧老漢撿石頭修豬圈,發現"白髮人頭",專家趕來:終於找到了

二〇二二年,很多很有名的節目被網友們重新翻出來,比如《今日說法》,網友們甚至還列出了必看節目單。說到必看的“電子榨菜”,網友們紛紛調侃起了一檔節目,它十分喜歡以農村口耳相傳的驚悚故事為開頭,經過不斷的探索,最終以科學的手段解釋靈異現象,它就是《走近科學》。
運河拾韻:愛的波濤(十三) || 朱鈞賢 - 天天要聞

運河拾韻:愛的波濤(十三) || 朱鈞賢

作者:朱鈞賢 攝影:竹葉青“老闆,還有什麼吩咐?”雪娟和素英同時止步,愕然的轉過身來。徐文琪將手中的鋼筆在桌子上敲了敲,注視了她們一眼,道:“還有幾個問題要對你講一講,我們飯店是食品服務性質的,首先必須要求清潔和衛生,還有的是要注意服務態度必須熱情周到,使客人滿意。