MiniMax發布新一代語音大模型

分類：科技

瀏覽數：1477

2025-05-20

近日，AI獨角獸MiniMax稀宇極智發布新一代語音大模型Speech-02，宣布該模型在國際最權威的兩項語音評測榜單Artificial Analysis（全球知名AI基準測試機構）和Hugging Face TTS Arena （抱抱臉文本轉語音競技場）上，超越OpenAI、ElevenLabs等國際巨頭，登上雙榜榜首。

國際權威語音評測榜單Artificial Analysis 來源：以下圖片均由Minimax方提供

據介紹，Speech-02在語音模型核心技術指標：字錯率WER和相似度SIM等客觀指標上取得了SOTA結果，用戶盲聽主觀評價反饋也顯示其更自然、真實。

與Seed-TTS、CosyVoice 2和真實音頻相比，Speech-02在中英文的零樣本語音克隆中均實現了更低的字錯率（Word Error Rate, WER），表明其發音錯誤率更低且更清晰穩定。在SIM方面，Speech-02在所有24種測試語言中均顯著優於ElevenLabs的multilingual_v2模型，前者生成的語音更逼近真人輸出。

Hugging Face TTS Arena 評測榜單

值得關注的是，Speech-02性能登頂的同時，其商用定價僅為全球頭部語音模型ElevenLabs的四分之一，具有高性能和性價比雙重優勢。目前，MiniMax已在文旅導覽、金融服務、語音助手、AI教育等領域應用其大模型服務。

澎湃新聞記者喻琰

(本文來自澎湃新聞，更多原創資訊請下載“澎湃新聞”APP)

科技分類資訊推薦