近日,AI獨角獸MiniMax稀宇極智發布新一代語音大模型Speech-02,宣布該模型在國際最權威的兩項語音評測榜單Artificial Analysis(全球知名AI基準測試機構)和Hugging Face TTS Arena (抱抱臉文本轉語音競技場)上,超越OpenAI、ElevenLabs等國際巨頭,登上雙榜榜首。
國際權威語音評測榜單Artificial Analysis 來源:以下圖片均由Minimax方提供
據介紹,Speech-02在語音模型核心技術指標:字錯率WER和相似度SIM等客觀指標上取得了SOTA結果,用戶盲聽主觀評價反饋也顯示其更自然、真實。
與Seed-TTS、CosyVoice 2和真實音頻相比,Speech-02在中英文的零樣本語音克隆中均實現了更低的字錯率(Word Error Rate, WER),表明其發音錯誤率更低且更清晰穩定。在SIM方面,Speech-02在所有24種測試語言中均顯著優於ElevenLabs的multilingual_v2模型,前者生成的語音更逼近真人輸出。
Hugging Face TTS Arena 評測榜單
值得關注的是,Speech-02性能登頂的同時,其商用定價僅為全球頭部語音模型ElevenLabs的四分之一,具有高性能和性價比雙重優勢。目前,MiniMax已在文旅導覽、金融服務、語音助手、AI教育等領域應用其大模型服務。
澎湃新聞記者 喻琰
(本文來自澎湃新聞,更多原創資訊請下載“澎湃新聞”APP)