微软演示 VASA-1 深度伪造因效果太好不适合向公众发布

2024年04月29日15:52:38 科技 1179

站长之家(chinaz.com) 4 月 21 日消息:本周，微软演示了 vasa–1，这是一个基于静态图像、音频样本和文本脚本来创建人物讲话视频的框架，微软声称——这是正确的——这个框架太危险了，不适合向公众发布。

这些由 ai 生成的视频，可以让人物以克隆的声音令人信服地配合脚本说话，正是美国联邦贸易委员会上个月警告的那种情形，之前已提出规则以防止利用 ai 技术进行冒充诈骗。

微软团队在宣布中就承认了这一点，他们解释说由于伦理考虑，此技术没有发布。他们坚称，他们展示的研究用于生成虚拟互动人物，而不是为了冒充任何人。因此，没有计划推出任何产品或 api。

微软的研究人员声明：「我们的研究重点是为虚拟 ai 化身生成视觉感知技能，以期望正向应用。」他们接着说，「本意并不是创造用来误导或欺骗的内容。

然而，像其他相关的内容生成技术一样，它仍可能被滥用来冒充人类。我们反对任何创建误导或有害真实人物内容的行为，并且对将我们的技术应用于促进伪造检测感到兴趣。」

生物特征认证公司 token 的主席，也是常谈生成 ai 的演讲者 kevin surace 通过电子邮件告诉 the register，虽然之前有技术演示显示了由静态画面和克隆的声音文件动画化的脸，但微软的示范反映了最新技术状态。

「个性化电子邮件和其他商业群众通信的潜力是巨大的，」他认为。「甚至还包括动画化旧照片。从某种程度上说，这只是好玩，另一方面它有我们在未来几个月和几年内都会使用的实际商业应用。」

网络安全公司 deeptrace 在 2019 年进行评估时发现，深度伪造的「乐趣」在于 96% 是非自愿色情内容。

尽管如此，微软的研究人员认为，能够创造出看起来逼真的人物并将文字放到他们嘴里，是有正面用途的。

他们在一篇研究论文中提出，「此类技术有望丰富数字通信，提高那些有沟通障碍者的可及性，通过互动 ai 辅导转变教育方法，以及在医疗保健中提供治疗支持和社交互动。」值得注意的是，该论文中没有提及「色情」或「假信息」。

尽管有争议，ai 生成的视频不完全等同于深度伪造，后者被定义为数字操纵而不是生成方法，但当一个令人信服的假象可以不用剪切粘贴技术而轻易地被使用时，这种区别就变得无关紧要了。

当被问及微软不向公众发布这项技术以防滥用的事实时，surace 对限制的可行性表示怀疑。

他说：「微软和其他公司目前已经暂停，直到他们解决隐私和使用问题。」他问道，「将如何规范那些出于正确理由使用此技术的人？」

surace 补充说，已经有相似精细的开源模型存在，例如 emo。他说：「人们可以从 github 提取源代码并围绕它构建服务，这可能会与微软的输出相匹敌。」他注意到，「因为这个领域的开源特性，不管怎样，规范它都是不可能的。」

尽管如此，世界各地的国家正在尝试规范 ai 伪造的人物。加拿大、英国等国家都有可以应用于深度伪造的规定，其中一些规定满足了更广泛的政治目标。正是这个星期，英国刚刚使未经同意制作色情深度伪造图像成为非法行为。在英国的 2023 年在线安全法下，分享此类图片已是不允许的。

今年 1 月，美国两党议员提出了 2024 年打击显著伪造图像和非自愿编辑行为法案（defiance act），该法案为非自愿深度伪造图像的受害者在法庭上提起民事诉讼创造了途径。

以及在周二，4 月 16 日，美国参议院司法委员会隐私、技术与法律小组委员会举行了题为「人工智能监管：选举深度伪造」的听证会。

在准备好的声明中，deepmedia 的 ceo rijul gupta 说道：

「深度伪造最令人担忧的方面是，它们能够为坏人提供合理的否认理由，使他们能够将真正的内容视为假的。公众信任的这种侵蚀打击了我们社会结构的核心和民主的基础。人类的大脑天生就相信所见所闻，因此特别容易受到深度伪造的欺骗。随着这些技术变得越来越复杂，它们有可能破坏我们社会所依赖的共同现实感，营造出一种不确定和怀疑的氛围，让公民质疑他们遇到的每一条信息的真实性。」