英偉達新推出的人工智慧音頻發生器將帶來前所未聞的聲音

分類：科技

瀏覽數：1541

2024-11-26

英偉達（Nvidia）的Fugatto是為「電影或音頻製作」而設計的，但它也可以產生像狗一樣的薩克斯管嚎叫聲。

英偉達想讓你知道，你最奇怪的音頻奇想現在都將是可能的。該公司最新的人工智慧項目，連同它的人工智慧NPC和遊戲內聊天機器人，是一個名為「Fugatto」的文本到音頻的人工智慧。像其他模型一樣，Nvidia AI音頻可以從簡單的描述中創建音軌，但這個程序也可以創建「從未聽過的聲音」，比如「薩克斯風的嚎叫」，不管這是什麼意思。

在一篇博客文章中，英偉達聲稱其「聲音的瑞士軍刀」人工智慧模型可以修改現有的聲音或憑空創造整個音景。Fugatto實際上是冗長的「Foundational Generative Audio Transformer Opus 1.」的首字母縮寫。它能夠處理聲音、音樂和背景噪音，並將它們全部製作成單個音軌。它還可以修改現有的聲源。

把任何東西稱為「從未聽過的聲音」都是愚蠢的，尤其是如果它來自人工智慧。無論輸出是什麼，人工智慧音頻只是一個人工智慧演算法，它使用訓練數據中的現有資源來提供接近提示的結果。英偉達表示，它的模型是獨一無二的，因為它可以將訓練期間分開的指令組合在一起，並「創造出前所未有的音景」。這意味著它可以疊加兩種不同的音頻效果來創造一些新的東西。在一段視頻中，英偉達展示了它是如何將火車的聲音轉化為管弦樂的。它還可以製造出暴風雨的聲音，逐漸消失在遠處。

這些是我們以前從未見過的能力。除了演示「狗隨著節拍吠叫的電子音樂」的提示外，Nvidia表示，其工具還可以對創建的聲景進行「精細控制」。英偉達聲稱，視頻的解說員是英偉達首席執行官黃仁勛的人工智慧版本，但如果Fugatto製作了明顯虛假的聲音，那麼在任何人將其用於下一個深度偽造項目之前，人工智慧模型需要做更多的工作。

許多人工智慧音頻工具已經將文本提示轉化為音軌。Adobe已經把自己的Project MusicGenAI Control工具賣給了無良的音樂人。Meta等大型科技公司已經將他們的音頻模型推廣到電影行業。上個月，Meta推出了Movie Gen，可以為人工智慧生成的電影生成聲景。

英偉達引用人工智慧研究員羅哈納·巴德拉尼的話說，這個模型「讓我覺得自己有點像個藝術家」，當然，人工智慧從現有的數千GB的音樂和音頻數據中提取數據。英偉達沒有透露其數據集的確切細節，只是說它包含「數百萬用於訓練的音頻樣本」。完整版的Fugatto是一個25億個參數的模型，它是在英偉達自己著名的H100人工智慧GPU庫上訓練的。

這對音效藝術家（foley artists）來說是個壞消息，他們已經把這種音頻偽造變成了一種著名的藝術形式。該公司表示，Fugatto對於廣告公司、視頻遊戲開發商或音樂家來說是一個有用的工具，他們希望在不做太多額外工作的情況下對自己的工作進行調整。儘管如此，硬幣的另一面是所有那些會用它來創造「新資產」的人，也就是說，可能會給不斷增長的堆增加更多的人工智慧。

Fugatto的潛在用途不僅僅是為電影製作公司提供一個取代人類音頻工程師的借口。英偉達聲稱，它可以在現有的音樂中刪除或添加樂器。它還可以從現有的雜訊源中隔離和修改特定的雜訊。也許你可以為你的blasé合成器配樂生成空鼓節奏。但除了人工智慧之外，沒有其他東西生成的整個配樂並不是大多數人在購買電影票時支付的費用。

如果朋友們喜歡，敬請關注「知新了了」！

科技分類資訊推薦