Meta發布SAM Audio,多模態音頻分離新突破

2025年12月17日23:50:26 科技 1703

it之家 12 月 17 日消息,meta 今日發布了首個統一的多模態音頻分離模型 —— sam audio

Meta發布SAM Audio,多模態音頻分離新突破 - 天天要聞

meta 表示 sam audio 是一個「最先進的統一模型」,通過使用自然的、多模態的提示,使音頻處理變得簡單,能夠輕鬆地從複雜的音頻混合中分離出任何聲音 —— 無論是通過文本、視覺提示還是時間段標記。這種直觀的方法模擬了人們自然與聲音互動的方式,使音頻分離更加易於使用和實用。

Meta發布SAM Audio,多模態音頻分離新突破 - 天天要聞

sam audio 的核心是感知編碼器視聽(pe-av),這是一個幫助實現先進性能的技術引擎。pe-av 基於 meta 今年早些時候分享的開源感知編碼器模型構建,它使人們能夠創建更先進的計算機視覺系統,以協助日常任務,包括聲音檢測。

Meta發布SAM Audio,多模態音頻分離新突破 - 天天要聞

▲ sam audio 核心架構

meta 官方把 pe-av 類比為「耳朵」,幫助 sam audio 這個「大腦」完成音頻分割任務。比如,一段樂隊演出的視頻錄像,只需點擊一下吉他,就能分離出吉他音頻

sam audio 還可以通過文本提示來分離音頻,例如從戶外拍攝的視頻中過濾掉嘈雜的交通噪音。此外,跨度提示功能可以幫助人們一次性解決音頻問題,例如在整個播客錄音中過濾掉狗叫聲的噪音。

sam audio 提出了三種音頻分割方法,可以單獨使用或任意組合以達到所需的效果:

  • 文本提示:輸入「狗吠」或「人聲演唱」以提取特定的聲音。
  • 視覺提示:在視頻中點擊說話的人或發聲的物體,以分離其音頻。
  • 時間片段提示:這是行業首創的方法,允許用戶標記目標音頻出現的時間段,類似《賽博朋克 2077》里的超夢。

meta 還發布了 sam audio-bench,這是首個真實場景下的音頻分離基準測試;以及 sam audio judge,這是首個用於音頻分離的自動評估模型。

Meta發布SAM Audio,多模態音頻分離新突破 - 天天要聞

meta 今日發布了第二個模型 —— perception encoder audiovisual,是 sam audio 成果的核心引擎。它支持核心組件,如主要的字幕生成模型和 sam audio judge。該模型基於 meta 於四月發布的開源模型 meta perception encoder 構建,pe-av 將計算機視覺能力擴展到了音頻領域。

Meta發布SAM Audio,多模態音頻分離新突破 - 天天要聞

it之家附 sam audio 訪問地址如下:

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發布並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。