这不是摩根弗里曼,但如果你没有被告知,你怎么知道?
想象以下场景。一个电话响了。一位上班族接听电话,听到老板惊慌失措地告诉他,她在离开前忘记给新承包商转账,需要他来做。她把电汇信息给了他,转帐后,危机就避免了。
工人靠在椅子上,深吸一口气,看着他的老板走进门。电话那头的声音不是他的老板。事实上,它甚至不是人类。他听到的声音是一种音频深度伪造的声音,一种机器生成的音频样本,旨在听起来与他的老板一模一样。
像这样使用录制音频的攻击已经发生,对话式音频深度伪造可能不会太远。
近年来,随着复杂机器学习技术的发展,Deepfake(包括音频和视频)成为可能。Deepfakes 给数字媒体带来了新的不确定性。为了检测深度伪造,许多研究人员已转向分析视频深度伪造中发现的视觉伪影——微小的故障和不一致。
音频深度伪造可能构成更大的威胁,因为人们经常在没有视频的情况下进行口头交流——例如,通过电话、收音机和录音。这些纯语音通信极大地扩大了攻击者使用深度伪造的可能性。
为了检测音频深度伪造,我们和佛罗里达大学的研究同事开发了一种技术,可以测量人类说话者有机创建的语音样本与计算机合成生成的语音样本之间的声学和流体动态差异。
有机声音与合成声音
人类通过迫使空气流过声道的各种结构(包括声带、舌头和嘴唇)来发声。通过重新排列这些结构,您可以改变声道的声学特性,从而可以创建 200 多种不同的声音或音素。然而,人体解剖学从根本上限制了这些不同音素的声学行为,导致每个音素的正确声音范围相对较小。
相比之下,音频深度伪造是通过首先允许计算机收听目标受害者扬声器的录音来创建的。根据所使用的具体技术,计算机可能只需要听 10 到 20 秒的音频。该音频用于提取有关受害者声音独特方面的关键信息。
攻击者选择一个短语供 deepfake 说话,然后使用修改后的文本转语音算法生成一个听起来像受害者说出所选短语的音频样本。创建单个 deepfake 音频样本的过程可以在几秒钟内完成,这可能使攻击者有足够的灵活性在对话中使用 deepfake 语音。
检测音频深度伪造
将人类产生的语音与 deepfakes 产生的语音区分开来的第一步是了解如何对声道进行声学建模。幸运的是,科学家们有技术可以根据对其声道的解剖测量来估计某人(或诸如恐龙之类的生物)的声音。
我们反其道而行之。通过反转许多这些相同的技术,我们能够在一段语音中提取说话者声道的近似值。这使我们能够有效地观察创建音频样本的扬声器的解剖结构。
Deepfaked 音频通常会导致类似于吸管而不是生物声道的声道重建。
从这里开始,我们假设 deepfake 音频样本不会受到与人类相同的解剖学限制的约束。换句话说,对深度伪造音频样本的分析模拟了人类不存在的声道形状。
我们的测试结果不仅证实了我们的假设,而且揭示了一些有趣的东西。在从 deepfake 音频中提取声道估计时,我们发现这些估计通常是不正确的。例如,deepfake 音频通常会导致声道具有与吸管相同的相对直径和一致性,而人类声道则更宽且形状更易变化。
这一认识表明,即使对人类听众有说服力,deepfake 音频也远不能与人类生成的语音区分开来。通过估计负责创建观察到的语音的解剖结构,可以确定音频是由人还是由计算机生成的。
为什么这很重要
当今世界是由媒体和信息的数字交换定义的。从新闻到娱乐再到与亲人的对话,一切都通常通过数字交流发生。即使在它们的初期,deepfake 视频和音频也会破坏人们对这些交流的信心,从而有效地限制了它们的用处。
如果数字世界要继续成为人们生活中信息的关键资源,那么确定音频样本来源的有效且安全的技术至关重要。