AI 實時語音深度偽造技術實現突破性進展,詐騙成功率近 100%

it之家 10 月 25 日消息,接觸過變聲器的朋友應該或多或少聽說過,目前主流的語音處理方案都是會有一定延遲時間的,甚至可以說效果越逼真,延遲就越高。

據網絡安全公司 ncc group 最新披露,ai 正推動語音深度偽造技術走向“實時”階段,攻擊者可在通話中即時模仿他人聲音,詐騙成功率近 100%。

實時語音偽造技術突破

這項被稱為“深度偽造語音釣魚(deepfake vishing)”的技術,通過 ai 模型學習目標人物的聲音樣本,可在定製網頁界面上由操作者一鍵啟用,實現實時語音“轉譯”。

研究人員表示,該系統僅需中等計算性能即可運行。在一台搭載英偉達 rtx a1000 顯卡的筆記本上,他們實現了不到 0.5s 的延遲,而且沒有之前的那種停頓和不自然感。

測試表明,即便只是使用低質量錄音,該系統仍能生成極其逼真的語音副本。相比以往需數分鐘訓練、僅能生成預錄音頻的舊式語音偽造工具,這一系統可在通話中根據人的意願實時調整語調和語速。這意味着普通人也可以藉助筆記本電腦或智能手機實現類似效果,進一步降低了惡意利用門檻。

測試結果顯示欺騙率極高

ncc group 安全顧問 pablo alobera 表示,在經授權的受控測試中,當實時語音偽造技術與來電號碼偽造(caller id spoofing)結合使用時,幾乎在每次實驗中都成功欺騙了測試對象。alobera 指出,這一技術突破顯著提升了語音偽造的速度與真實性,即使是普通電話通話,也可能被利用進行欺詐。

視頻偽造尚未完全同步發展

儘管語音偽造技術已進入實時階段,但實時視頻深度偽造仍未達到相同水平。近期流傳的高質量案例多依賴最前沿 ai 模型,如阿里 wan 2.2 animate 和谷歌的 gemini flash 2.5 image,從而將人物“移植”至逼真的視頻場景中。

然而,這些系統在實時視頻生成中仍存在表情不一致、情緒不匹配及語音不同步等問題。人工智能安全公司 the circuit 創始人 trevor wiseman 向《ieee spectrum》表示,即使是普通觀眾,也能從“語氣與面部表情的不協調”察覺偽造痕迹。

專家呼籲建立新型身份驗證機制

wiseman 提到,ai 偽造技術的普及已導致實際損失。他舉例稱,有公司在招聘過程中被視頻深度偽造欺騙,誤將筆記本電腦寄往虛假地址。這類事件表明,語音或視頻通話已無法作為可靠的身份驗證方式

隨着 ai 驅動的冒充行為日益普及,專家警告稱,必須引入新的身份驗證機制。wiseman 建議借鑒棒球比賽中的“暗號”概念,使用獨特且結構化的信號或代碼,以在遠程交流中確認身份。他強調,若不採取此類措施,個人與機構都將面臨越來越複雜的 ai 社會工程攻擊威脅。