“AI語音之王”科大訊飛聲音復刻技術大升級，成品人機難辨！

2025年06月26日23:00:20 科技 1177

智東西

作者 | 程茜

編輯 | 漠影

讓《長安的荔枝》男主角李善德親自推薦自己的電視劇是什麼體驗？

這段讓人難辨真假的音頻並非真正出自李善德之口，其應用的正是科大訊飛近期升級的聲音復刻技術，李善德痛斥右相的段落中，聲調拔高，語速加快，聲音復刻技術呈現的李善德推薦《長安的荔枝》音頻中，不僅將聲線高度契合，而且把語音中包含的情緒也復刻得非常到位。值得注意的是，這段ai“李善德”的學習素材僅需不到10s。

去年，訊飛星火app的小星暢聊里就上線了一句話聲音復刻功能，如今，訊飛星火新版聲音復刻功能也已更新，人人都可擁有同聲線的數字分身。同時，新一代的聲音復刻能力也已正式上線訊飛開放平台，開發者可通過api進行接入和調用。

在app中創建聲音，用戶只需要選擇性別，朗讀一句話，就可以快速生成自定義聲音，並與之進行對話。

作為ai語音王者，科大訊飛在語音技術領域的深耕，以及在智能駕駛、教育等人機交互場景的廣泛應用，已經使其成為全球語音領域的頭部企業，其語音相關項目不僅兩次獲得國內知識產權領域的最高獎項中國專利金獎，同時還斬獲國家科學技術進步獎一等獎。

在這一背景下，科大訊飛聲音復刻技術的背後到底有哪些黑科技？語音技術將帶給科技行業什麼樣的想象空間？智東西將從訊飛星火app的相關功能體驗出發，找到這些問題的答案。

一、秒級自定義ai發音人，蠟筆小新、哪吒跨時空交流

如今更貼近人類日常交流的語音交互模式，幾乎已經成為聊天機器人的必備功能。

訊飛星火app的語音通話功能中，不僅支持其內置的14位發音人與用戶流暢對話，還可以通過一句話創建屬於自己的發音人。

可以看到，app中已經預設了14個發音人，包含普通話、英文、方言、日語、俄語等多種語音包。

想要自己創建發音人的過程也極為簡單，用戶只需選擇性別，然後根據提示朗讀屏幕上的一句話，等待幾秒鐘就能創建成功，同時為了讓其更符合用戶的使用習慣，還能添加相應人設。

下面有幾個案例來感受一下一句話聲音復刻技術的驚艷效果，用這項技術對用戶熟知的影視劇角色、動漫人物聲音進行了復刻，通過對比，我們可以更為直觀地感受到其聲音合成的相似度與準確度。

科大訊飛的聲音復刻技術還讓兩大經典影視劇中的甄嬛和佟掌柜來了一場世紀交流，當ai用《甄嬛傳》中甄嬛的復刻聲線說出《武林外傳》佟掌柜的經典台詞時，僅需不到6s的音頻即可瞬間讓《武林外傳》資深觀眾來了一波穿越。

其合成音頻中，不僅復刻了甄嬛的聲線，語氣也十分平緩，訴說過程銜接自然流暢。

第三是動漫形象，基於科大訊飛的聲音復刻技術，哪吒和蠟筆小新實現了跨時空交流。

通過不到7s的音頻素材進行學習，就可以復刻蠟筆小新的聲音，並讓其準確說出哪吒的經典打油詩。

同時，哪吒也可以開口說蠟筆小新的經典台詞，與其寵物小白隔空交流，復刻的音頻中，既保留了哪吒的獨特聲線，還有其特殊的尾音上揚特徵。

這些音頻的實現效果，有的僅需要原角色不到5s的音頻就能實現，且可以看出上面幾段音頻都沒有出現明顯的卡頓，還復刻了聲調上揚、語速、說話節奏等細微的特徵。

二、從音色到停頓、發音流暢自然，打造三階段層次化語音建模框架

對於這些深入人心的影視角色，用戶在一些更為細節的發音特徵上或許感知並不是很強烈，但在訊飛星火app自定義創建聲音的場景中，用戶對發音人復刻效果的要求更高，這對聲音復刻功能提出了更大挑戰。

因此想要實現“一句話聲音復刻”的背後，需要面臨三大關鍵難題：如何從一句話中精準提煉用戶發音的多種特性、如何保證聲音相似、如何準確還原用戶的停頓、發聲、重音習慣以及口癖等。

在此基礎上，科大訊飛為個性化的語音合成打造了“三階段層次化語音建模框架”，試圖將用戶輸入一句話音頻的各種聲音信息都捕捉到位。

具體來看，該框架具體分為三個階段，通過星火底座大模型精確捕捉髮音規律和韻律特徵、在音色恢復階段解耦並重構聲學特徵、通過聲碼器恢復高保真波形。

傳統聲音復刻技術往往需要數小時甚至數十小時語音樣本進行訓練，而基於星火語音大模型底座能力，其可以快速從短時間音頻中提取語音中的基礎元素。

其第二個階段的本質正是通過將語音的音色屬性從複雜的混合信號中剝離出來，並按照目標需求重新組合關鍵特徵，以提高音色還原的準確性。

第三個階段中的高保真波形恢復，能夠儘可能還原原始音頻的時域細節、頻譜特徵和動態範圍。

據了解，這套語音建模框架突破語義表徵，採用mel vq-ae模型（mel頻譜向量量化自編碼器）結合語音自監督預訓練編碼器，並引入音色最小互信息約束，能解耦出音色無關的離散語義token，實現了發音內容與音色特徵的可控分離，並可以提升語義大模型的建模穩定性。

同時，讓合成聲音更為自然還有一大關鍵是，發音需流暢且音色一致，因此在音色解耦表徵的基礎上，科大訊飛進一步通過音色增強以及強化學習，來實現聲音復刻的人機難辨。

其中，音色增強是指在聲學模型中，研究人員融合全局聲紋嵌入與局部幀級音色編碼，提取細粒度音色特徵，並構建聲紋空間語義一致性損失函數，提升音色恢復的相似度；主要是通過語音魯棒性評價模型和人工標註構建偏好數據集，採用基於dpo的強化學習策略提升合成語音的穩定性和自然流暢度。

在這些綜合作用下，科大訊飛的語音合成技術已經可以做到，只需一句話錄音就能完整捕捉用戶喉腔共鳴、口音特點、氣息流轉等發音特徵，並精準還原用戶的停頓習慣、情感起伏和呼吸節奏。

基於此才能達到真人難以區分的復刻效果，為車載語音交互系統、個性化智能客服、智能體交互的應用場景打開更大想象空間。

三、多次拿下業界國家級大獎，橫縱布局加速語音技術落地

一直以來，語音都是人類最自然的交流方式，因此業界一直圍繞着模擬人類對話過程、使機器能夠理解並回應人類語音指令進行探索。

作為國內ai領域國家隊，科大訊飛早在2011年就肩負起語音及語言處理國家工程實驗室（後升級為工程研究中心）的重任，並成為全球語音技術領域的頭部玩家。

時至今日，科大訊飛在語音領域已經碩果累累，最直觀的數據就是，本月，科大訊飛憑藉“基於時延估計的回聲消除方法及裝置”專利入選第二十五屆中國專利金獎項目名單，這也是其第二次獲得這一國內知識產權領域的最高獎項，同時也是安徽省唯一一家兩次獲得中國專利金獎的單位。

此外，去年其“多語種智能語音關鍵技術及產業化”項目還斬獲國家科學技術進步獎一等獎。

在技術深耕之下，科大訊飛不僅實現了在語音識別、語音合成領域的準確度、識別語種、相似度等各項性能的縱向提升，還橫向拓寬了語音技術的應用場景，從識別、翻譯到合成，以及智能駕駛、智能客服、教育等諸多場景。

去年9月，科大訊飛在語音識別領域的賽事chime-8奪冠，並實現五連冠。語音識別首次實現全國地級市方言全覆蓋，包括288個地市202種方言。

此前科大訊飛正式發布的星火語音大模型，實現74個語種、方言免切換對話；且根據真實業務構建的語音輸入場景測試集，星火語音大模型37個語種語音識別效果領先openai發布的開源語音識別模型whisper-v3.5。

同時其能在強幹擾場景下實現精準語音識別，在兩人疊混場景、三人疊混場景中和-5db高噪音場景中的語音轉寫效果遠超whisper和gemini。

在此基礎上，星火語音大模型已經深度運用在各種人機交互場景中，如智能座艙、教育等諸多領域。

可見語音技術的攻關非一日之功，在技術深耕與場景應用上的雙重發力，使得科大訊飛的語音技術正在全球扮演着愈發重要的角色。

結語：更自然流暢的語音交互，正擴寬ai應用場景

語音交互使人們可以通過說話來操作設備和獲取信息，無需手動輸入或操作複雜的界面。如今隨着技術的發展，語音識別和合成技術為聊天機器人等ai工具賦予了自然交互能力，使其與用戶的交流更加流暢。

與此同時，企業也在不斷探索新的算法和模型，在突破語音識別、合成準確率的同時，拓寬其應用場景，使得語音與自然語言處理、計算機視覺等技術相互融合，以推動ai的發展，而科大訊飛在技術融合與場景落地方面的積累，已展現出顯著的競爭力。

一、秒級自定義ai發音人，蠟筆小新、哪吒跨時空交流

二、從音色到停頓、發音流暢自然，打造三階段層次化語音建模框架

三、多次拿下業界國家級大獎，橫縱布局加速語音技術落地

結語：更自然流暢的語音交互，正擴寬ai應用場景

科技分類資訊推薦

科技分類視頻推薦

雨姐今天做小雞燉大鵝，老香了#東北#生活...

雨姐今天在家烤全羊，老香了#生活#東北...

今天跟大傢伙一起，簡簡單單聚個餐#東北#生活#美食...

老爸，你看這是什麼！#直播帶貨 #瘋狂小楊哥 #瘋狂大楊哥 #紅綠燈的黃 #搞笑...

雨姐今天去集市買點蔬菜，囤秋菜#東北#生活...

中國家宴，歡迎大家來雨姐家蹭一頓“簡簡單單”的雞黍飯#東北#生活...

東北物價這麼低？四人午飯消費51元，飯桌上大成子因啥拒絕當姐夫...

中秋團圓杉杉來遲，記錄我的農村生活 #東北#生活...

小楊哥出包她慘背鍋！直播曝真相：大公司還要我扛？@cosmosviral...

盤點那些有趣的東北姑娘，性格豪爽的東北女孩，個個都是虎娘們...