微軟演示 VASA-1 深度偽造因效果太好不適合向公眾發佈

2024年04月29日15:52:38 科技 1179

站長之家(chinaz.com) 4 月 21 日消息:本周，微軟演示了 vasa–1，這是一個基於靜態圖像、音頻樣本和文本腳本來創建人物講話視頻的框架，微軟聲稱——這是正確的——這個框架太危險了，不適合向公眾發佈。

這些由 ai 生成的視頻，可以讓人物以克隆的聲音令人信服地配合腳本說話，正是美國聯邦貿易委員會上個月警告的那種情形，之前已提出規則以防止利用 ai 技術進行冒充詐騙。

微軟團隊在宣布中就承認了這一點，他們解釋說由於倫理考慮，此技術沒有發佈。他們堅稱，他們展示的研究用於生成虛擬互動人物，而不是為了冒充任何人。因此，沒有計劃推出任何產品或 api。

微軟的研究人員聲明：「我們的研究重點是為虛擬 ai 化身生成視覺感知技能，以期望正嚮應用。」他們接著說，「本意並不是創造用來誤導或欺騙的內容。

然而，像其他相關的內容生成技術一樣，它仍可能被濫用來冒充人類。我們反對任何創建誤導或有害真實人物內容的行為，並且對將我們的技術應用於促進偽造檢測感到興趣。」

生物特徵認證公司 token 的主席，也是常談生成 ai 的演講者 kevin surace 通過電子郵件告訴 the register，雖然之前有技術演示顯示了由靜態畫面和克隆的聲音文件動畫化的臉，但微軟的示範反映了最新技術狀態。

「個性化電子郵件和其他商業群眾通信的潛力是巨大的，」他認為。「甚至還包括動畫化舊照片。從某種程度上說，這只是好玩，另一方面它有我們在未來幾個月和幾年內都會使用的實際商業應用。」

網絡安全公司 deeptrace 在 2019 年進行評估時發現，深度偽造的「樂趣」在於 96% 是非自願色情內容。

儘管如此，微軟的研究人員認為，能夠創造出看起來逼真的人物並將文字放到他們嘴裏，是有正面用途的。

他們在一篇研究論文中提出，「此類技術有望豐富數字通信，提高那些有溝通障礙者的可及性，通過互動 ai 輔導轉變教育方法，以及在醫療保健中提供治療支持和社交互動。」值得注意的是，該論文中沒有提及「色情」或「假信息」。

儘管有爭議，ai 生成的視頻不完全等同於深度偽造，後者被定義為數字操縱而不是生成方法，但當一個令人信服的假象可以不用剪切粘貼技術而輕易地被使用時，這種區別就變得無關緊要了。

當被問及微軟不向公眾發佈這項技術以防濫用的事實時，surace 對限制的可行性表示懷疑。

他說：「微軟和其他公司目前已經暫停，直到他們解決隱私和使用問題。」他問道，「將如何規範那些出於正確理由使用此技術的人？」

surace 補充說，已經有相似精細的開源模型存在，例如 emo。他說：「人們可以從 github 提取源代碼並圍繞它構建服務，這可能會與微軟的輸出相匹敵。」他注意到，「因為這個領域的開源特性，不管怎樣，規範它都是不可能的。」

儘管如此，世界各地的國家正在嘗試規範 ai 偽造的人物。加拿大、英國等國家都有可以應用於深度偽造的規定，其中一些規定滿足了更廣泛的政治目標。正是這個星期，英國剛剛使未經同意製作色情深度偽造圖像成為非法行為。在英國的 2023 年在線安全法下，分享此類圖片已是不允許的。

今年 1 月，美國兩黨議員提出了 2024 年打擊顯著偽造圖像和非自願編輯行為法案（defiance act），該法案為非自願深度偽造圖像的受害者在法庭上提起民事訴訟創造了途徑。

以及在周二，4 月 16 日，美國參議院司法委員會隱私、技術與法律小組委員會舉行了題為「人工智能監管：選舉深度偽造」的聽證會。

在準備好的聲明中，deepmedia 的 ceo rijul gupta 說道：

「深度偽造最令人擔憂的方面是，它們能夠為壞人提供合理的否認理由，使他們能夠將真正的內容視為假的。公眾信任的這種侵蝕打擊了我們社會結構的核心和民主的基礎。人類的大腦天生就相信所見所聞，因此特別容易受到深度偽造的欺騙。隨着這些技術變得越來越複雜，它們有可能破壞我們社會所依賴的共同現實感，營造出一種不確定和懷疑的氛圍，讓公民質疑他們遇到的每一條信息的真實性。」