自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画

2022年10月09日20:41:40 资讯 1035

机器之心报道

编辑:张倩

这个框架能将人物视频转成动画,还是高清、高度可控的。

在社交网络、短视频平台上使用卡通头像录制视频是很多人喜欢的玩法,但我们也会发现一些问题,比如头像调整范围比较窄,和本人没有那么像等。

近日,来自新加坡南洋理工大学的一项相关研究在 reddit、推特上都收获了上千的点赞量。他们开发了一个能够进行可控高分辨率人像视频风格转换的框架——VToonify,在风格控制的灵活性、生成视频的质量、时间上的连贯性等方面都有着出色的表现。

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

你可以根据自己的需要灵活调整生成的风格类型以及卡通化的程度等指标:

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

从 demo 中可以看出,VToonify 生成的这些人像不仅具有高度可调的卡通风格,而且包含了人像的很多细节,有一种千人千面的感觉。因此,不少网友表示,有了这个工具,动画电影做起来岂不是很容易?

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

还有人畅想将其应用到 VR 领域。

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

当被问及能否当实时滤镜用时,作者表示:目前模型还很大,做到实时还需要一些工程努力。

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

论文概览

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

  • 论文链接:https://arxiv.org/pdf/2209.11224.pdf
  • 项目链接: https://github.com/williamyang1991/VToonify
  • demo 链接: https://huggingface.co/spaces/PKUWilliamYang/VToonify
  • colab 链接:https://colab.research.google.com/github/williamyang1991/VToonify/blob/master/notebooks/inference_playground.ipynb

生成高质量的艺术人像视频是计算机图形学和计算机视觉中的一个重要任务。虽然基于强大的 StyleGAN,研究者们已经提出了一系列成功的人像卡通模型,但这些面向图像的方法在应用于视频时存在明显的局限性,如固定帧大小、人脸对齐要求、缺少非面部细节和时间不一致等。

也就是说,一个高效的视频卡通化方法需要克服以下挑战:

  • 能够处理未对齐的人脸和不同的视频大小,以保持运动自然。增大视频尺寸或使用广角可以捕捉更多的信息,防止人脸移动出帧;
  • 为了匹配目前广泛使用的高清设备,生成的视频要有足够高的分辨率;
  • 要想构建一个实用的用户交互系统,新方法应该提供灵活的风格控制,让用户调整并选择自己喜欢的风格。

为了满足以上需求,研究者们提出了专门用于视频卡通化的混合框架——VToonify。

具体来说,他们首先分析了 StyleGAN 的平移同变性,这是克服“固定帧大小”局限性的关键。如下图 2(c)所示,VToonify 结合了基于 StyleGAN 的框架和图像转换框架的优点,实现了可控的高分辨率人像视频风格转换。

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

他们采用[Pinkney and Adler 2020] 的 StyleGAN 架构进行高分辨率的视频风格转换,但通过删除固定大小的输入特征和低分辨率层来调整 StyleGAN,构建了一个全新的全卷积编码器 - 生成器架构,类似于图像转换框架中的架构,支持不同的视频大小。

除了原始的高级风格代码外,他们还训练编码器提取输入帧的多尺度内容特征作为生成器的附加内容条件,以便在风格转换过程中更好地保存帧的关键视觉信息。

他们遵循 [Chen et al. 2019; Viazovetskyi et al. 2020] 的做法,在合成的配对数据上蒸馏 StyleGAN。

此外,他们还进一步提出了基于单一合成数据模拟相机运动的闪烁抑制损失来消除闪烁。

因此,VToonify 无需真实数据、复杂的视频合成和显式的光流计算,就可以学习快速连贯的视频转换。

不同于 [Chen et al. 2019; Viazovetskyi et al. 2020] 中标准的图像转换框架,VToonify 将 StyleGAN 模型合并到生成器中,以蒸馏数据和模型。因此,VToonify 继承了 StyleGAN 的风格调整灵活性。通过重用 StyleGAN 作为生成器,研究者只需要训练编码器,大大减少了训练时间和训练难度。

根据上述做法,研究者提出了基于两个代表性 StyleGAN 主干——Toonify [Pinkney and Adler 2020] 和 DualStyleGAN [Yang et al. 2022]——的两种 VToonify 变体,分别用于 collection-based 和 exemplar-based 的人像视频卡通化。

前者根据数据集的整体风格对人脸进行风格化,而后者则使用数据集中的一张图像来指定更精细的风格,如图 1 的右上角所示。

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

研究者通过采用 DualStyleGAN 的风格控制模块 [Yang et al. 2022] 来调整编码器的特征,并精心设计数据生成和训练目标。VToonify 继承了 DualStyleGAN 灵活的风格控制和风格程度的调整,并进一步将这些功能扩展到视频(如图 1 右上角所示)

collection-based 人像视频风格转换

在 collection-based 人像视频风格转换中,研究者利用具有代表性的 Toonify 作为主干,它使用原始的 StyleGAN 架构,并仅以风格代码为条件。

如图 4 所示,collection-based VToonify 框架包含构建在 Toonify 之上的编码器和生成器。接受视频帧并生成内容特征,然后将这些特征输入以生成最终的风格化人像。与现有的使用整个 StyleGAN 架构的基于 StyleGAN 的框架不同,他们只使用最高级的 11 层 StyleGAN 来构建。正如 [Karras et al. 2019] 中所分析的,StyleGAN 的低分辨率层和高分辨率层分别主要捕获与结构相关的风格和颜色 / 纹理风格。因此,的主要任务是对内容特征进行上采样,并为它们渲染风格化的颜色和纹理。

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

exemplar-based 人像视频风格转换

在 exemplar-based 人像视频风格转换中,研究者使用 DualStyleGAN 作为主干,它向 StyleGAN 添加了一个外部风格路径,并以内部风格代码、外部风格代码和风格程度为条件。内部风格代码描述了人脸的特征,外部风格代码描述了艺术人像外部的结构和色彩风格。结构风格度_和颜色风格度_决定了所应用风格的强度。

exemplar-based 框架和上面提到的 collection-based 框架有很多共同之处,它通过两方面修改来实现灵活的风格控制,一是借助 Modified ModRe 实现结构风格控制,二是添加了 Style-Degree-Aware 融合模块。完整架构如图 9 所示。

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

实验结果

实验结果表明,VToonify 生成的风格化帧不仅与主干帧一样质量高,而且更好地保留了输入帧的细节。

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

自导自演皮克斯动画不再是梦,这个工具实现了真人视频转动画 - 天天要闻

更多细节请参见原论文。

资讯分类资讯推荐

范玮琪力挺陈建州,第三位受害人站出来,好姐妹makiyo也补刀 - 天天要闻

范玮琪力挺陈建州,第三位受害人站出来,好姐妹makiyo也补刀

#陈建州风波牵连多位明星#近期,台湾省艺人陈建州性骚扰事件越演越烈,已经有三位女艺人大牙、郭源元和黑涩会美眉妖娇出来指控陈建州对她们的性骚扰行为。陈建州妻子范玮琪则发文力挺老公。范玮琪发文表示自己孕期一直在家,外出黑人一直陪同,黑人不可能存在带女性回家的可能。
一战华工的珍贵照片 - 天天要闻

一战华工的珍贵照片

赴欧劳工上船前消毒洗澡,发放印有编号的外衣、裤子、腰带及内衣、草帽及鞋袜等,还统一配置毛毯、铺盖、水杯和铁饭碗的工具包,并在离国前集中在威海等地稍作军训。
阳后还有这个后遗症,向风而行征文 - 天天要闻

阳后还有这个后遗症,向风而行征文

#头条创作挑战赛第二期#​#暖冬的生活记#​#电视剧向风而来行征文#​最近我右侧的眼睛好难受,每天睡醒就然糊糊的,一天感觉看东西不太清楚,视力下降很明显,头也晕晕的,闷闷的,不是很舒服。我不知道其他人阳后有没有这个症状。
北大高材生感叹道:“这辈子我就没说过几次真话!” - 天天要闻

北大高材生感叹道:“这辈子我就没说过几次真话!”

我有一个姓于的朋友,大家都管他叫老于。老于今年五七多岁,北大毕业,清华读的硕士,北师大读的博士,妥妥的学霸。他现在是一家厅级单位的副总工,待遇也不错。在我们这些人眼里,那可是人中龙凤,几乎是神一样的存在。有一次几个朋友一起喝酒,喝多以后,大家照例吹捧这位学霸朋友。
画家把字画作价3万放老板店里寄卖,老板索要2成佣金,被画家拒绝 - 天天要闻

画家把字画作价3万放老板店里寄卖,老板索要2成佣金,被画家拒绝

街上有那种卖字画的店铺,这种店铺非常的少,因为懂画的人也少。店铺的老板是个爱画之人,不是名家的画,只要是画的好,价格合适,他也会收下,或者帮忙寄卖。王立是一名没有任何名气的画家,经常会拿一些画到店里寄卖,几百到几千的价格都有。这一天,王立又拿来一幅画,说是要寄卖。
04年辽宁老汉捡石头修猪圈,发现"白发人头",专家赶来:终于找到了 - 天天要闻

04年辽宁老汉捡石头修猪圈,发现"白发人头",专家赶来:终于找到了

二〇二二年,很多很有名的节目被网友们重新翻出来,比如《今日说法》,网友们甚至还列出了必看节目单。说到必看的“电子榨菜”,网友们纷纷调侃起了一档节目,它十分喜欢以农村口耳相传的惊悚故事为开头,经过不断的探索,最终以科学的手段解释灵异现象,它就是《走近科学》。
运河拾韵:爱的波涛(十三) || 朱钧贤 - 天天要闻

运河拾韵:爱的波涛(十三) || 朱钧贤

作者:朱钧贤 摄影:竹叶青“老板,还有什么吩咐?”雪娟和素英同时止步,愕然的转过身来。徐文琪将手中的钢笔在桌子上敲了敲,注视了她们一眼,道:“还有几个问题要对你讲一讲,我们饭店是食品服务性质的,首先必须要求清洁和卫生,还有的是要注意服务态度必须热情周到,使客人满意。