阿里這兩天開源了他們的音頻語言模型:Qwen2-Audio。簡單來說,這款模型能夠理解並轉錄你的語音內容,還可以分析你說話時的情感,甚至能識別周圍的環境聲音,並將這些信息轉化為文字。模型的大小只有70億參數,很小。
亮點:
- 語音交互: 你可以直接對Qwen2-Audio發出語音指令,完全不需要藉助自動語音識別(ASR)模塊。
- 音頻解析: 通過文本指令,這個模型能夠深入分析音頻信息,無論是語音、環境音還是音樂。
- 多語言支持: 支持8種以上的語言和方言,包括中文、英語、粵語、法語、義大利語、西班牙語、德語和日語等。
缺點:
- 不能處理太長音頻:目前Qwen2-Audio-7B 及 Qwen2-Audio-7B-Instruct 模型處理30秒以內的音頻表現更佳。
- 不穩定:轉換為Huggingface後表現會有波動,不穩定
- 沒有好的應用場景:或是不太好整合(個人認為)
這個模型在語音翻譯、情感分析以及環境聲音識別等應用場景中有著廣泛的潛力。
目前已經開源了 Qwen2-Audio 系列的兩個模型:Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct。:https://huggingface.co/collections/Qwen/qwen2-audio-66b628d694096020e0c52ff6
在github上可以獲取訓練過程的概述:https://github.com/QwenLM/Qwen2-Audio/blob/main/README_CN.md
論文在稍早的時間已經發表,參考地址。https://arxiv.org/abs/2407.10759
模型測評的整體表現,這部分有在原始訓練框架上的數據和轉換為Huggingface後的,但是轉換為Huggingface後的數據會出現明顯的波動。
Demo 和更多信息可以參考通義千問博客:https://qwenlm.github.io/blog/qwen2-audio/