Meta发布SAM Audio,多模态音频分离新突破

2025年12月17日23:50:26 科技 1703

it之家 12 月 17 日消息,meta 今日发布了首个统一的多模态音频分离模型 —— sam audio

Meta发布SAM Audio,多模态音频分离新突破 - 天天要闻

meta 表示 sam audio 是一个“最先进的统一模型”,通过使用自然的、多模态的提示,使音频处理变得简单,能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。这种直观的方法模拟了人们自然与声音互动的方式,使音频分离更加易于使用和实用。

Meta发布SAM Audio,多模态音频分离新突破 - 天天要闻

sam audio 的核心是感知编码器视听(pe-av),这是一个帮助实现先进性能的技术引擎。pe-av 基于 meta 今年早些时候分享的开源感知编码器模型构建,它使人们能够创建更先进的计算机视觉系统,以协助日常任务,包括声音检测。

Meta发布SAM Audio,多模态音频分离新突破 - 天天要闻

▲ sam audio 核心架构

meta 官方把 pe-av 类比为“耳朵”,帮助 sam audio 这个“大脑”完成音频分割任务。比如,一段乐队演出的视频录像,只需点击一下吉他,就能分离出吉他音频

sam audio 还可以通过文本提示来分离音频,例如从户外拍摄的视频中过滤掉嘈杂的交通噪音。此外,跨度提示功能可以帮助人们一次性解决音频问题,例如在整个播客录音中过滤掉狗叫声的噪音。

sam audio 提出了三种音频分割方法,可以单独使用或任意组合以达到所需的效果:

  • 文本提示:输入“狗吠”或“人声演唱”以提取特定的声音。
  • 视觉提示:在视频中点击说话的人或发声的物体,以分离其音频。
  • 时间片段提示:这是行业首创的方法,允许用户标记目标音频出现的时间段,类似《赛博朋克 2077》里的超梦。

meta 还发布了 sam audio-bench,这是首个真实场景下的音频分离基准测试;以及 sam audio judge,这是首个用于音频分离的自动评估模型。

Meta发布SAM Audio,多模态音频分离新突破 - 天天要闻

meta 今日发布了第二个模型 —— perception encoder audiovisual,是 sam audio 成果的核心引擎。它支持核心组件,如主要的字幕生成模型和 sam audio judge。该模型基于 meta 于四月发布的开源模型 meta perception encoder 构建,pe-av 将计算机视觉能力扩展到了音频领域。

Meta发布SAM Audio,多模态音频分离新突破 - 天天要闻

it之家附 sam audio 访问地址如下:

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。