“AI語音之王”科大訊飛聲音復刻技術大升級,成品人機難辨!

2025年06月26日23:00:20 科技 1177

“AI語音之王”科大訊飛聲音復刻技術大升級,成品人機難辨! - 天天要聞

智東西

作者 | 程茜

編輯 | 漠影

讓《長安的荔枝》男主角李善德親自推薦自己的電視劇是什麼體驗?

“AI語音之王”科大訊飛聲音復刻技術大升級,成品人機難辨! - 天天要聞

這段讓人難辨真假的音頻並非真正出自李善德之口,其應用的正是科大訊飛近期升級的聲音復刻技術,李善德痛斥右相的段落中,聲調拔高,語速加快,聲音復刻技術呈現的李善德推薦《長安的荔枝》音頻中,不僅將聲線高度契合,而且把語音中包含的情緒也復刻得非常到位。值得注意的是,這段ai“李善德”的學習素材僅需不到10s。

去年,訊飛星火app的小星暢聊里就上線了一句話聲音復刻功能,如今,訊飛星火新版聲音復刻功能也已更新,人人都可擁有同聲線的數字分身。同時,新一代的聲音復刻能力也已正式上線訊飛開放平台,開發者可通過api進行接入和調用。

在app中創建聲音,用戶只需要選擇性別,朗讀一句話,就可以快速生成自定義聲音,並與之進行對話。

“AI語音之王”科大訊飛聲音復刻技術大升級,成品人機難辨! - 天天要聞

作為ai語音王者,科大訊飛在語音技術領域的深耕,以及在智能駕駛、教育等人機交互場景的廣泛應用,已經使其成為全球語音領域的頭部企業,其語音相關項目不僅兩次獲得國內知識產權領域的最高獎項中國專利金獎,同時還斬獲國家科學技術進步獎一等獎。

在這一背景下,科大訊飛聲音復刻技術的背後到底有哪些黑科技?語音技術將帶給科技行業什麼樣的想象空間?智東西將從訊飛星火app的相關功能體驗出發,找到這些問題的答案。

一、秒級自定義ai發音人,蠟筆小新、哪吒跨時空交流

如今更貼近人類日常交流的語音交互模式,幾乎已經成為聊天機器人的必備功能。

訊飛星火app的語音通話功能中,不僅支持其內置的14位發音人與用戶流暢對話,還可以通過一句話創建屬於自己的發音人。

可以看到,app中已經預設了14個發音人,包含普通話、英文、方言、日語、俄語等多種語音包。

“AI語音之王”科大訊飛聲音復刻技術大升級,成品人機難辨! - 天天要聞

想要自己創建發音人的過程也極為簡單,用戶只需選擇性別,然後根據提示朗讀屏幕上的一句話,等待幾秒鐘就能創建成功,同時為了讓其更符合用戶的使用習慣,還能添加相應人設。

下面有幾個案例來感受一下一句話聲音復刻技術的驚艷效果,用這項技術對用戶熟知的影視劇角色、動漫人物聲音進行了復刻,通過對比,我們可以更為直觀地感受到其聲音合成的相似度與準確度。

科大訊飛的聲音復刻技術還讓兩大經典影視劇中的甄嬛和佟掌柜來了一場世紀交流,當ai用《甄嬛傳》中甄嬛的復刻聲線說出《武林外傳》佟掌柜的經典台詞時,僅需不到6s的音頻即可瞬間讓《武林外傳》資深觀眾來了一波穿越。

其合成音頻中,不僅復刻了甄嬛的聲線,語氣也十分平緩,訴說過程銜接自然流暢。

第三是動漫形象,基於科大訊飛的聲音復刻技術,哪吒和蠟筆小新實現了跨時空交流。

通過不到7s的音頻素材進行學習,就可以復刻蠟筆小新的聲音,並讓其準確說出哪吒的經典打油詩。

同時,哪吒也可以開口說蠟筆小新的經典台詞,與其寵物小白隔空交流,復刻的音頻中,既保留了哪吒的獨特聲線,還有其特殊的尾音上揚特徵。

這些音頻的實現效果,有的僅需要原角色不到5s的音頻就能實現,且可以看出上面幾段音頻都沒有出現明顯的卡頓,還復刻了聲調上揚、語速、說話節奏等細微的特徵。

二、從音色到停頓、發音流暢自然,打造三階段層次化語音建模框架

對於這些深入人心的影視角色,用戶在一些更為細節的發音特徵上或許感知並不是很強烈,但在訊飛星火app自定義創建聲音的場景中,用戶對發音人復刻效果的要求更高,這對聲音復刻功能提出了更大挑戰。

因此想要實現“一句話聲音復刻”的背後,需要面臨三大關鍵難題:如何從一句話中精準提煉用戶發音的多種特性、如何保證聲音相似、如何準確還原用戶的停頓、發聲、重音習慣以及口癖等。

在此基礎上,科大訊飛為個性化的語音合成打造了“三階段層次化語音建模框架”,試圖將用戶輸入一句話音頻的各種聲音信息都捕捉到位。

具體來看,該框架具體分為三個階段,通過星火底座大模型精確捕捉髮音規律和韻律特徵、在音色恢復階段解耦並重構聲學特徵、通過聲碼器恢復高保真波形。

傳統聲音復刻技術往往需要數小時甚至數十小時語音樣本進行訓練,而基於星火語音大模型底座能力,其可以快速從短時間音頻中提取語音中的基礎元素。

其第二個階段的本質正是通過將語音的音色屬性從複雜的混合信號中剝離出來,並按照目標需求重新組合關鍵特徵,以提高音色還原的準確性。

第三個階段中的高保真波形恢復,能夠儘可能還原原始音頻的時域細節、頻譜特徵和動態範圍。

據了解,這套語音建模框架突破語義表徵,採用mel vq-ae模型(mel頻譜向量量化自編碼器)結合語音自監督預訓練編碼器,並引入音色最小互信息約束,能解耦出音色無關的離散語義token,實現了發音內容與音色特徵的可控分離,並可以提升語義大模型的建模穩定性。

同時,讓合成聲音更為自然還有一大關鍵是,發音需流暢且音色一致,因此在音色解耦表徵的基礎上,科大訊飛進一步通過音色增強以及強化學習,來實現聲音復刻的人機難辨。

其中,音色增強是指在聲學模型中,研究人員融合全局聲紋嵌入與局部幀級音色編碼,提取細粒度音色特徵,並構建聲紋空間語義一致性損失函數,提升音色恢復的相似度;主要是通過語音魯棒性評價模型和人工標註構建偏好數據集,採用基於dpo的強化學習策略提升合成語音的穩定性和自然流暢度。

在這些綜合作用下,科大訊飛的語音合成技術已經可以做到,只需一句話錄音就能完整捕捉用戶喉腔共鳴、口音特點、氣息流轉等發音特徵,並精準還原用戶的停頓習慣、情感起伏和呼吸節奏。

基於此才能達到真人難以區分的復刻效果,為車載語音交互系統、個性化智能客服、智能體交互的應用場景打開更大想象空間。

三、多次拿下業界國家級大獎,橫縱布局加速語音技術落地

一直以來,語音都是人類最自然的交流方式,因此業界一直圍繞着模擬人類對話過程、使機器能夠理解並回應人類語音指令進行探索。

作為國內ai領域國家隊,科大訊飛早在2011年就肩負起語音及語言處理國家工程實驗室(後升級為工程研究中心)的重任,並成為全球語音技術領域的頭部玩家。

時至今日,科大訊飛在語音領域已經碩果累累,最直觀的數據就是,本月,科大訊飛憑藉“基於時延估計的回聲消除方法及裝置”專利入選第二十五屆中國專利金獎項目名單,這也是其第二次獲得這一國內知識產權領域的最高獎項,同時也是安徽省唯一一家兩次獲得中國專利金獎的單位。

此外,去年其“多語種智能語音關鍵技術及產業化”項目還斬獲國家科學技術進步獎一等獎。

“AI語音之王”科大訊飛聲音復刻技術大升級,成品人機難辨! - 天天要聞

在技術深耕之下,科大訊飛不僅實現了在語音識別、語音合成領域的準確度、識別語種、相似度等各項性能的縱向提升,還橫向拓寬了語音技術的應用場景,從識別、翻譯到合成,以及智能駕駛、智能客服、教育等諸多場景。

去年9月,科大訊飛在語音識別領域的賽事chime-8奪冠,並實現五連冠。語音識別首次實現全國地級市方言全覆蓋,包括288個地市202種方言。

此前科大訊飛正式發布的星火語音大模型,實現74個語種、方言免切換對話;且根據真實業務構建的語音輸入場景測試集,星火語音大模型37個語種語音識別效果領先openai發布的開源語音識別模型whisper-v3.5。

同時其能在強幹擾場景下實現精準語音識別,在兩人疊混場景、三人疊混場景中和-5db高噪音場景中的語音轉寫效果遠超whisper和gemini。

在此基礎上,星火語音大模型已經深度運用在各種人機交互場景中,如智能座艙、教育等諸多領域。

可見語音技術的攻關非一日之功,在技術深耕與場景應用上的雙重發力,使得科大訊飛的語音技術正在全球扮演着愈發重要的角色。

結語:更自然流暢的語音交互,正擴寬ai應用場景

語音交互使人們可以通過說話來操作設備和獲取信息,無需手動輸入或操作複雜的界面。如今隨着技術的發展,語音識別和合成技術為聊天機器人等ai工具賦予了自然交互能力,使其與用戶的交流更加流暢。

與此同時,企業也在不斷探索新的算法和模型,在突破語音識別、合成準確率的同時,拓寬其應用場景,使得語音與自然語言處理、計算機視覺等技術相互融合,以推動ai的發展,而科大訊飛在技術融合與場景落地方面的積累,已展現出顯著的競爭力。

科技分類資訊推薦

2025 ECDC螢石雲開發者大會召開 面向碎片化AI場景全面升級 - 天天要聞

2025 ECDC螢石雲開發者大會召開 面向碎片化AI場景全面升級

6 月 26 日,以“藍海潮生 全域進化”為主題的 2025 ECDC 螢石雲開發者大會在杭州舉辦。作為全球領先的視覺物聯網雲平台,螢石在過去一年以“AI +視覺能力”為核心驅動力,推出螢石藍海大模型與新一代 AI 核心架構 EZVIZ HomePlay OS,同步完成螢石開放平台升級,在物聯網領域掀起了一場深刻的 AI 變革。 而在今年的大會上...
2025惠普商用AI戰略暨AI PC新品發布, 智領辦公新未來 - 天天要聞

2025惠普商用AI戰略暨AI PC新品發布, 智領辦公新未來

2025年6月26日, “Making AI Real” 2025惠普商用AI戰略暨AI PC新品發布會在北京盛大舉行。作為未來辦公創新的踐行者,惠普以客戶需求為核心驅動力,精準把握AI技術在企業端加速普及的趨勢,重磅發布包括全新EliteBook 系列高端AI商務本、戰系列AI商務本、多款 “開箱即用” 的Z系列AI一體機,以及全面升級的Poly智能音視.
財經老王丨機器人家政要來了嗎? - 天天要聞

財經老王丨機器人家政要來了嗎?

當傳統家電遇見人形機器人,我們的生活會變成什麼樣?在第十六屆夏季達沃斯論壇上,老王見到了周雲傑和王興興,他們劇透說,這些AI生成的場景,也許離我們不遠了。周雲傑告訴老王,海爾正在用AI給家電賦能,讓智能家電升級為人形機器人。海爾集團董事長 周雲傑:比如炒菜機器人、陪伴機器人可以是人形的,用AI的方式對家庭...
雷軍最新回應“小米靠營銷成功”:我們把能力建設放首位!他還說:“要改變心態,把自己當作重點車企看待”!小米美股ADR漲超11% - 天天要聞

雷軍最新回應“小米靠營銷成功”:我們把能力建設放首位!他還說:“要改變心態,把自己當作重點車企看待”!小米美股ADR漲超11%

6月26日晚,小米正式發布小米YU7。售價25.35萬元起,Pro版27.99萬元,Max版32.99萬元。全系超長續航,標準版835km。 上市發布會後,小米汽車宣布,3分鐘大定突破20萬台,1小時大定突破289000台。 “拿到這麼多訂單還是挺激動的,遠超我的想象。”小米集團董事長雷軍在接受《每日經濟新聞》採訪時表示,“我覺得SUV的競爭非...
雷軍:流量時代要謹言慎行,不再是新手要高標準嚴要求 - 天天要聞

雷軍:流量時代要謹言慎行,不再是新手要高標準嚴要求

新京報貝殼財經訊(記者陳維城)6月26日,小米首款SUV車型小米YU7發布。對於今年以來的輿論風波話題,小米集團創始人、董事長兼CEO雷軍表示,流量時代小米要謹言慎行,就是每一句話要說得非常準確,要進一步提高準確度,一定要把自己的事情做好,因為任何瑕疵都可能被放大,這是我們最需要做的。同時還要堅定不移地走自己的...
雷軍談“反內卷”:堅決反價格戰,往高端挺進 - 天天要聞

雷軍談“反內卷”:堅決反價格戰,往高端挺進

新京報貝殼財經訊(記者陳維城)6月26日,小米首款SUV車型小米YU7發布。對於汽車行業反內卷話題,小米集團創始人、董事長兼CEO雷軍表示,“積極響應主管部門的號召,堅決執行反內卷。比如對供應商60天內付款,小米的表現有口皆碑。在競爭形勢上,我們也堅決反價格戰,往高端挺進,我們用更高的標準來要求自己,堅決落實主管...
供不應求!華為Pura80 Ultra開售全面售罄 9999元起 - 天天要聞

供不應求!華為Pura80 Ultra開售全面售罄 9999元起

站長之家(ChinaZ.com) 6月26日 消息:6月26日,華為新一代影像旗艦Pura80Ultra正式發售,一經開售便在市場上引發強烈反響,線上線下渠道均迅速售罄,出現“一機難求”的局面。華為商城信息顯示,Pura80Ultra下一輪銷售時間為6月27日10:08。此次發售提供鎏光金和鎏光黑兩種配色,有16GB512GB和16GB1TB兩種配置可供選擇
小米 MIX Flip 2 小摺疊手機發布:售價 5999 元起 - 天天要聞

小米 MIX Flip 2 小摺疊手機發布:售價 5999 元起

站長之家(ChinaZ.com)6月26日 消息:今日晚間,小米人車家全生態發布會盛大舉行,小米 MIX Flip2小摺疊手機正式亮相,其口號“滿分小折”彰顯了小米對這款產品的自信。小米 MIX Flip2小摺疊手機定價5999元起,在配置上亮點頗多。它搭載了驍龍8至尊版處理器,性能強勁,為手機的流暢運行提供了堅實保障。同時,該機在小摺疊...
華為Pura80 Ultra今日首銷 影像實力強勁售價9999元起 - 天天要聞

華為Pura80 Ultra今日首銷 影像實力強勁售價9999元起

站長之家(ChinaZ.com)6月26日 消息:今日上午10:08,華為旗下被視為最強拍照手機的Pura80Ultra正式開啟銷售。此次推出的華為Pura80Ultra提供16GB+512GB、16GB+1TB兩種存儲版本,售價分別為9999元和10999元。華為Pura80Ultra在屏幕與材質方面表現出色,配備了一塊6.8英寸的屏幕,並採用第二代玄武鋼
華為Pocket 2優享版今日首銷 5499元起支持國補 - 天天要聞

華為Pocket 2優享版今日首銷 5499元起支持國補

站長之家(ChinaZ.com) 6月26日 消息:據華為官方消息,華為Pocket2優享版於今日上午10:08正式開售。此次開售的華為Pocket2優享版提供兩種存儲版本,12GB+512GB版本售價5999元,12GB+256GB版本售價5499元。依據手機國補政策,個人消費者購買單件銷售價格不超過6000元的手機、平板、智能手錶(手環)這3類數碼產品,