機器之心報道
編輯:張倩
這個框架能將人物視頻轉成動畫,還是高清、高度可控的。
在社交網路、短視頻平台上使用卡通頭像錄製視頻是很多人喜歡的玩法,但我們也會發現一些問題,比如頭像調整範圍比較窄,和本人沒有那麼像等。
近日,來自新加坡南洋理工大學的一項相關研究在 reddit、推特上都收穫了上千的點贊量。他們開發了一個能夠進行可控高解析度人像視頻風格轉換的框架——VToonify,在風格控制的靈活性、生成視頻的質量、時間上的連貫性等方面都有著出色的表現。
你可以根據自己的需要靈活調整生成的風格類型以及卡通化的程度等指標:
從 demo 中可以看出,VToonify 生成的這些人像不僅具有高度可調的卡通風格,而且包含了人像的很多細節,有一種千人千面的感覺。因此,不少網友表示,有了這個工具,動畫電影做起來豈不是很容易?
還有人暢想將其應用到 VR 領域。
當被問及能否當實時濾鏡用時,作者表示:目前模型還很大,做到實時還需要一些工程努力。
論文概覽
- 論文鏈接:https://arxiv.org/pdf/2209.11224.pdf
- 項目鏈接: https://github.com/williamyang1991/VToonify
- demo 鏈接: https://huggingface.co/spaces/PKUWilliamYang/VToonify
- colab 鏈接:https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb
生成高質量的藝術人像視頻是計算機圖形學和計算機視覺中的一個重要任務。雖然基於強大的 StyleGAN,研究者們已經提出了一系列成功的人像卡通模型,但這些面向圖像的方法在應用於視頻時存在明顯的局限性,如固定幀大小、人臉對齊要求、缺少非面部細節和時間不一致等。
也就是說,一個高效的視頻卡通化方法需要克服以下挑戰:
- 能夠處理未對齊的人臉和不同的視頻大小,以保持運動自然。增大視頻尺寸或使用廣角可以捕捉更多的信息,防止人臉移動出幀;
- 為了匹配目前廣泛使用的高清設備,生成的視頻要有足夠高的解析度;
- 要想構建一個實用的用戶交互系統,新方法應該提供靈活的風格控制,讓用戶調整並選擇自己喜歡的風格。
為了滿足以上需求,研究者們提出了專門用於視頻卡通化的混合框架——VToonify。
具體來說,他們首先分析了 StyleGAN 的平移同變性,這是克服「固定幀大小」局限性的關鍵。如下圖 2(c)所示,VToonify 結合了基於 StyleGAN 的框架和圖像轉換框架的優點,實現了可控的高解析度人像視頻風格轉換。
他們採用[Pinkney and Adler 2020] 的 StyleGAN 架構進行高解析度的視頻風格轉換,但通過刪除固定大小的輸入特徵和低解析度層來調整 StyleGAN,構建了一個全新的全卷積編碼器 - 生成器架構,類似於圖像轉換框架中的架構,支持不同的視頻大小。
除了原始的高級風格代碼外,他們還訓練編碼器提取輸入幀的多尺度內容特徵作為生成器的附加內容條件,以便在風格轉換過程中更好地保存幀的關鍵視覺信息。
他們遵循 [Chen et al. 2019; Viazovetskyi et al. 2020] 的做法,在合成的配對數據上蒸餾 StyleGAN。
此外,他們還進一步提出了基於單一合成數據模擬相機運動的閃爍抑制損失來消除閃爍。
因此,VToonify 無需真實數據、複雜的視頻合成和顯式的光流計算,就可以學習快速連貫的視頻轉換。
不同於 [Chen et al. 2019; Viazovetskyi et al. 2020] 中標準的圖像轉換框架,VToonify 將 StyleGAN 模型合併到生成器中,以蒸餾數據和模型。因此,VToonify 繼承了 StyleGAN 的風格調整靈活性。通過重用 StyleGAN 作為生成器,研究者只需要訓練編碼器,大大減少了訓練時間和訓練難度。
根據上述做法,研究者提出了基於兩個代表性 StyleGAN 主幹——Toonify [Pinkney and Adler 2020] 和 DualStyleGAN [Yang et al. 2022]——的兩種 VToonify 變體,分別用於 collection-based 和 exemplar-based 的人像視頻卡通化。
前者根據數據集的整體風格對人臉進行風格化,而後者則使用數據集中的一張圖像來指定更精細的風格,如圖 1 的右上角所示。
研究者通過採用 DualStyleGAN 的風格控制模塊 [Yang et al. 2022] 來調整編碼器的特徵,並精心設計數據生成和訓練目標。VToonify 繼承了 DualStyleGAN 靈活的風格控制和風格程度的調整,並進一步將這些功能擴展到視頻(如圖 1 右上角所示)
collection-based 人像視頻風格轉換
在 collection-based 人像視頻風格轉換中,研究者利用具有代表性的 Toonify 作為主幹,它使用原始的 StyleGAN 架構,並僅以風格代碼為條件。
如圖 4 所示,collection-based VToonify 框架包含構建在 Toonify 之上的編碼器和生成器。接受視頻幀並生成內容特徵,然後將這些特徵輸入以生成最終的風格化人像。與現有的使用整個 StyleGAN 架構的基於 StyleGAN 的框架不同,他們只使用最高級的 11 層 StyleGAN 來構建。正如 [Karras et al. 2019] 中所分析的,StyleGAN 的低解析度層和高解析度層分別主要捕獲與結構相關的風格和顏色 / 紋理風格。因此,的主要任務是對內容特徵進行上採樣,並為它們渲染風格化的顏色和紋理。
exemplar-based 人像視頻風格轉換
在 exemplar-based 人像視頻風格轉換中,研究者使用 DualStyleGAN 作為主幹,它向 StyleGAN 添加了一個外部風格路徑,並以內部風格代碼、外部風格代碼和風格程度為條件。內部風格代碼描述了人臉的特徵,外部風格代碼描述了藝術人像外部的結構和色彩風格。結構風格度_和顏色風格度_決定了所應用風格的強度。
exemplar-based 框架和上面提到的 collection-based 框架有很多共同之處,它通過兩方面修改來實現靈活的風格控制,一是藉助 Modified ModRe 實現結構風格控制,二是添加了 Style-Degree-Aware 融合模塊。完整架構如圖 9 所示。
實驗結果
實驗結果表明,VToonify 生成的風格化幀不僅與主幹幀一樣質量高,而且更好地保留了輸入幀的細節。
更多細節請參見原論文。