音频语言模型:Qwen2-Audio

2024年08月10日17:13:05 科技 1600

阿里这两天开源了他们的音频语言模型:Qwen2-Audio。简单来说,这款模型能够理解并转录你的语音内容,还可以分析你说话时的情感,甚至能识别周围的环境声音,并将这些信息转化为文字。模型的大小只有70亿参数,很小。

亮点:

  1. 语音交互: 你可以直接对Qwen2-Audio发出语音指令,完全不需要借助自动语音识别(ASR)模块。
  2. 音频解析: 通过文本指令,这个模型能够深入分析音频信息,无论是语音、环境音还是音乐。
  3. 多语言支持: 支持8种以上的语言和方言,包括中文、英语、粤语、法语、意大利语、西班牙语、德语和日语等。

缺点:

  1. 不能处理太长音频:目前Qwen2-Audio-7B 及 Qwen2-Audio-7B-Instruct 模型处理30秒以内的音频表现更佳。
  2. 不稳定:转换为Huggingface后表现会有波动,不稳定
  3. 没有好的应用场景:或是不太好整合(个人认为)

这个模型在语音翻译、情感分析以及环境声音识别等应用场景中有着广泛的潜力。

音频语言模型:Qwen2-Audio - 天天要闻


目前已经开源了 Qwen2-Audio 系列的两个模型:Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct。:https://huggingface.co/collections/Qwen/qwen2-audio-66b628d694096020e0c52ff6

音频语言模型:Qwen2-Audio - 天天要闻


在github上可以获取训练过程的概述:https://github.com/QwenLM/Qwen2-Audio/blob/main/README_CN.md

音频语言模型:Qwen2-Audio - 天天要闻

论文在稍早的时间已经发表,参考地址。https://arxiv.org/abs/2407.10759

音频语言模型:Qwen2-Audio - 天天要闻

模型测评的整体表现,这部分有在原始训练框架上的数据和转换为Huggingface后的,但是转换为Huggingface后的数据会出现明显的波动。

音频语言模型:Qwen2-Audio - 天天要闻


Demo 和更多信息可以参考通义千问博客:https://qwenlm.github.io/blog/qwen2-audio/

音频语言模型:Qwen2-Audio - 天天要闻

科技分类资讯推荐

所谓“大而美”法案或将继续扩大美债规模 - 天天要闻

所谓“大而美”法案或将继续扩大美债规模

美国所谓“大而美”法案7月1日在国会参议院得到通过,当前还需要得到众议院的通过才能提交给美国总统签字。如果该法案最终通过并成为法律,预计将对已创下纪录的美国联邦政府债务增加压力。美国国会预算办公室估....
解码哈药618 突围路径:从产品矩阵到生态构建的行业示范 - 天天要闻

解码哈药618 突围路径:从产品矩阵到生态构建的行业示范

当 2025 年 "618" 电商大促成为检验消费市场韧性的试金石,哈药以国民药企的战略定力与创新突破,构建起一套 "传统赛道筑基 + 新兴领域破局" 的增长模型。在保健品行业竞争白热化的背景下,这家企业通过多品牌协同、产品创新迭代与数字化营销破圈,不仅巩固了细分市场领导地位,更以全链路生态布局为大健康产业提供了可复制...
更快,更强,更纯粹!超薄极致电竞利器ROG绝神OLED显示器 - 天天要闻

更快,更强,更纯粹!超薄极致电竞利器ROG绝神OLED显示器

熟悉鼠鼠我的朋友都知道我是一个游戏爱好者,无论是喊上朋友们一起开黑还是自己沉浸式体验制作精良的3A大作,都能在平时繁重的牛马生活之余带给我放松和快乐。作为重度游戏爱好者,外设的选择自然是马虎不得,这其中我最为看重的就是能够直接影响平时游戏体
坐飞机和高铁分别可以携带什么样的充电宝? - 天天要闻

坐飞机和高铁分别可以携带什么样的充电宝?

来源:【江西发布】近日民航局禁止携带没有3C标识、被召回范围的充电宝上机规定引发关注坐飞机和高铁分别可以携带什么样的充电宝?充电宝上飞机乘坐飞机时,充电宝只能在手提行李中携带或随身携带,严禁在托运行李中携带。
小米YU7“封神” 国产新能源汽车“新王换旧王” - 天天要闻

小米YU7“封神” 国产新能源汽车“新王换旧王”

摘要:新能源的新格局,雏形已现。凤凰网科技 出品2025年6月26日夜晚,小米旗下首款SUV车型小米YU 7正式发布。这款以豪华、高性能、极致体验、先进安全性为特征的SUV车型,犹如一颗重磅核弹投入本就不平静的新能源车市,激起千层浪。
百度前副总裁璩静开医美诊所,人均消费2218元 - 天天要闻

百度前副总裁璩静开医美诊所,人均消费2218元

红星资本局7月2日消息,百度前副总裁璩静在华为总部坂田基地附近开了一家医美诊所。据公开资料,璩静名下新增一家存续企业——深圳大为诊所。该诊所成立于2024年12月23日,璩静持股比例为100%,认缴出资额为100万元,经营范围为诊所服务等。
千里智行,常用常新,传祺向往S7 开启重磅OTA升级 - 天天要闻

千里智行,常用常新,传祺向往S7 开启重磅OTA升级

7月2日,传祺向往S7 OTA如期而至,OTA 2.0版本正式全量推送。本次升级新增16项功能,31项 功能升级和57项体验优化,主要涉及智能座舱、智能辅助驾驶、娱乐系统、车机交互等多个维度,旨在为用户提供常用常新的出行体验,功能强大又好用。
九州风神推出大霜塔棱镜风冷散热器:双塔棱镜顶盖,209 元 - 天天要闻

九州风神推出大霜塔棱镜风冷散热器:双塔棱镜顶盖,209 元

IT之家 7 月 3 日消息,九州风神 DeepCool 现已推出大霜塔棱镜 (AG620 ARGB V2) 风冷散热器。其采用双塔双风扇六热管直触设计,双塔顶部均配有 ARGB 灯效“棱镜顶盖”。大霜塔棱镜长宽高 129×136×162 (mm),支持 45mm 高内存条。其六根 6mm 双向恒定热平衡热管采用 CTT 2.0 核心触控技术在塔体底部并管排