Meta发布SAM Audio，多模态音频分离新突破

分类：科技

浏览数：1703

2025-12-17

it之家 12 月 17 日消息，meta 今日发布了首个统一的多模态音频分离模型 —— sam audio。

meta 表示 sam audio 是一个“最先进的统一模型”，通过使用自然的、多模态的提示，使音频处理变得简单，能够轻松地从复杂的音频混合中分离出任何声音 —— 无论是通过文本、视觉提示还是时间段标记。这种直观的方法模拟了人们自然与声音互动的方式，使音频分离更加易于使用和实用。

sam audio 的核心是感知编码器视听（pe-av），这是一个帮助实现先进性能的技术引擎。pe-av 基于 meta 今年早些时候分享的开源感知编码器模型构建，它使人们能够创建更先进的计算机视觉系统，以协助日常任务，包括声音检测。

▲ sam audio 核心架构

meta 官方把 pe-av 类比为“耳朵”，帮助 sam audio 这个“大脑”完成音频分割任务。比如，一段乐队演出的视频录像，只需点击一下吉他，就能分离出吉他音频。

sam audio 还可以通过文本提示来分离音频，例如从户外拍摄的视频中过滤掉嘈杂的交通噪音。此外，跨度提示功能可以帮助人们一次性解决音频问题，例如在整个播客录音中过滤掉狗叫声的噪音。

sam audio 提出了三种音频分割方法，可以单独使用或任意组合以达到所需的效果：

文本提示：输入“狗吠”或“人声演唱”以提取特定的声音。
视觉提示：在视频中点击说话的人或发声的物体，以分离其音频。
时间片段提示：这是行业首创的方法，允许用户标记目标音频出现的时间段，类似《赛博朋克 2077》里的超梦。

meta 还发布了 sam audio-bench，这是首个真实场景下的音频分离基准测试；以及 sam audio judge，这是首个用于音频分离的自动评估模型。

meta 今日发布了第二个模型 —— perception encoder audiovisual，是 sam audio 成果的核心引擎。它支持核心组件，如主要的字幕生成模型和 sam audio judge。该模型基于 meta 于四月发布的开源模型 meta perception encoder 构建，pe-av 将计算机视觉能力扩展到了音频领域。

it之家附 sam audio 访问地址如下：

科技分类资讯推荐