這不是摩根弗里曼,但如果你沒有被告知,你怎麼知道?
想像以下場景。一個電話響了。一位上班族接聽電話,聽到老闆驚慌失措地告訴他,她在離開前忘記給新承包商轉賬,需要他來做。她把電匯信息給了他,轉帳後,危機就避免了。
工人靠在椅子上,深吸一口氣,看著他的老闆走進門。電話那頭的聲音不是他的老闆。事實上,它甚至不是人類。他聽到的聲音是一種音頻深度偽造的聲音,一種機器生成的音頻樣本,旨在聽起來與他的老闆一模一樣。
像這樣使用錄製音頻的攻擊已經發生,對話式音頻深度偽造可能不會太遠。
近年來,隨著複雜機器學習技術的發展,Deepfake(包括音頻和視頻)成為可能。Deepfakes 給數字媒體帶來了新的不確定性。為了檢測深度偽造,許多研究人員已轉向分析視頻深度偽造中發現的視覺偽影——微小的故障和不一致。
音頻深度偽造可能構成更大的威脅,因為人們經常在沒有視頻的情況下進行口頭交流——例如,通過電話、收音機和錄音。這些純語音通信極大地擴大了攻擊者使用深度偽造的可能性。
為了檢測音頻深度偽造,我們和佛羅里達大學的研究同事開發了一種技術,可以測量人類說話者有機創建的語音樣本與計算機合成生成的語音樣本之間的聲學和流體動態差異。
有機聲音與合成聲音
人類通過迫使空氣流過聲道的各種結構(包括聲帶、舌頭和嘴唇)來發聲。通過重新排列這些結構,您可以改變聲道的聲學特性,從而可以創建 200 多種不同的聲音或音素。然而,人體解剖學從根本上限制了這些不同音素的聲學行為,導致每個音素的正確聲音範圍相對較小。
相比之下,音頻深度偽造是通過首先允許計算機收聽目標受害者揚聲器的錄音來創建的。根據所使用的具體技術,計算機可能只需要聽 10 到 20 秒的音頻。該音頻用於提取有關受害者聲音獨特方面的關鍵信息。
攻擊者選擇一個短語供 deepfake 說話,然後使用修改後的文本轉語音演算法生成一個聽起來像受害者說出所選短語的音頻樣本。創建單個 deepfake 音頻樣本的過程可以在幾秒鐘內完成,這可能使攻擊者有足夠的靈活性在對話中使用 deepfake 語音。
檢測音頻深度偽造
將人類產生的語音與 deepfakes 產生的語音區分開來的第一步是了解如何對聲道進行聲學建模。幸運的是,科學家們有技術可以根據對其聲道的解剖測量來估計某人(或諸如恐龍之類的生物)的聲音。
我們反其道而行之。通過反轉許多這些相同的技術,我們能夠在一段語音中提取說話者聲道的近似值。這使我們能夠有效地觀察創建音頻樣本的揚聲器的解剖結構。
Deepfaked 音頻通常會導致類似於吸管而不是生物聲道的聲道重建。
從這裡開始,我們假設 deepfake 音頻樣本不會受到與人類相同的解剖學限制的約束。換句話說,對深度偽造音頻樣本的分析模擬了人類不存在的聲道形狀。
我們的測試結果不僅證實了我們的假設,而且揭示了一些有趣的東西。在從 deepfake 音頻中提取聲道估計時,我們發現這些估計通常是不正確的。例如,deepfake 音頻通常會導致聲道具有與吸管相同的相對直徑和一致性,而人類聲道則更寬且形狀更易變化。
這一認識表明,即使對人類聽眾有說服力,deepfake 音頻也遠不能與人類生成的語音區分開來。通過估計負責創建觀察到的語音的解剖結構,可以確定音頻是由人還是由計算機生成的。
為什麼這很重要
當今世界是由媒體和信息的數字交換定義的。從新聞到娛樂再到與親人的對話,一切都通常通過數字交流發生。即使在它們的初期,deepfake 視頻和音頻也會破壞人們對這些交流的信心,從而有效地限制了它們的用處。
如果數字世界要繼續成為人們生活中信息的關鍵資源,那麼確定音頻樣本來源的有效且安全的技術至關重要。