阿里这两天开源了他们的音频语言模型:Qwen2-Audio。简单来说,这款模型能够理解并转录你的语音内容,还可以分析你说话时的情感,甚至能识别周围的环境声音,并将这些信息转化为文字。模型的大小只有70亿参数,很小。
亮点:
- 语音交互: 你可以直接对Qwen2-Audio发出语音指令,完全不需要借助自动语音识别(ASR)模块。
- 音频解析: 通过文本指令,这个模型能够深入分析音频信息,无论是语音、环境音还是音乐。
- 多语言支持: 支持8种以上的语言和方言,包括中文、英语、粤语、法语、意大利语、西班牙语、德语和日语等。
缺点:
- 不能处理太长音频:目前Qwen2-Audio-7B 及 Qwen2-Audio-7B-Instruct 模型处理30秒以内的音频表现更佳。
- 不稳定:转换为Huggingface后表现会有波动,不稳定
- 没有好的应用场景:或是不太好整合(个人认为)
这个模型在语音翻译、情感分析以及环境声音识别等应用场景中有着广泛的潜力。
目前已经开源了 Qwen2-Audio 系列的两个模型:Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct。:https://huggingface.co/collections/Qwen/qwen2-audio-66b628d694096020e0c52ff6
在github上可以获取训练过程的概述:https://github.com/QwenLM/Qwen2-Audio/blob/main/README_CN.md
论文在稍早的时间已经发表,参考地址。https://arxiv.org/abs/2407.10759
模型测评的整体表现,这部分有在原始训练框架上的数据和转换为Huggingface后的,但是转换为Huggingface后的数据会出现明显的波动。
Demo 和更多信息可以参考通义千问博客:https://qwenlm.github.io/blog/qwen2-audio/