出門問問論文入選全球語音技術頂會INTERSPEECH 2022

2022年07月14日11:22:38 科技 1666

如何讓AI語音更富有人類情感?

近日,全球語音領域頂級會議INTERSPEECH 2022公布論文入選名單,出門問問西工大謝磊教授ASLP實驗室合作撰寫的團隊情感語音合成論文入選,並將在會議上進行展示。

INTERSPEECH在國際上享有極高盛譽並具有廣泛的學術影響力,是由國際語音通訊協會(ISCA)創辦的旗艦級國際會議,也是全球最大的綜合性語音領域的科技盛會,對參會企業和單位有著嚴苛的准入門檻,歷屆INTERSPEECH會議都倍受全球各地語音研究領域人士的廣泛關注。 此次論文入選,代表出門問問在語音合成領域的科研實力和技術創新能力獲得國際學術界的認可。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

論文貢獻:跨說話人情感遷移語音合成的實現路徑

如何讓AI語音更富有人類情感,更有情緒化的表達?出門問問在題為《端到端語音合成中基於韻律補償的跨說話人情感遷移》的論文中作以闡述。

跨說話人情感遷移語音合成主要是將情感從具有情感數據的源說話人遷移到新的沒有該情感的目標說話人上,使目標說話人能夠表達其訓練數據中不存在的各種情感。「情感遷移」是跨說話人場景中最流行的策略。在這項研究中,從源說話人的情感參考音頻中提取與說話人無關的情感嵌入至關重要。否則,情感嵌入中保留的說話人信息就會影響目標說話人的音色。然而,在消除源說話人音色信息的過程中,情感嵌入所傳遞的情感信息往往會被削弱,導致合成目標說話人的情感語音表現力平淡。

如何防止情感嵌入中的情感信息被削弱是一個挑戰。具體來說,在合成語音中,具有足夠情感信息的reference embedding 往往會導致源說話人音色泄漏,而進一步消除reference embedding中的說話人信息可能會使遷移的情感表達削弱。為了應對這一挑戰,出門問問在論文中提出一種韻律補償策略來補償情感嵌入中由於說話人信息消除造成的情感信息損失,以提升合成語音的情感表達能力。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

論文中表達,由預訓練的 Automatic Speech Recognition(ASR)模型產生的隱藏表徵保留了一定的韻律信息,但沒有明顯的說話人信息,於是我們提出了一個韻律補償模塊(prosody compensation module, PCM)以參考音頻通過ASR模型得到的中間表徵作為輸入用於補償情感信息。本文提出的帶韻律補償的跨說話人情感語音合成模型,包含說話人解耦模塊(speaker disentangling module, SDM)、說話人嵌入模塊和PCM模塊。其中,SDM是從參考頻譜中獲得說話人無關的情感嵌入,PCM是從AIF中獲得額外的情感信息,以補償因解藕說話人音色而導致的情感嵌入中的情感信息損失。為了有效地從AIF中提取全局韻律信息,還引入了一種由全局上下文模塊global context(GC) (如Figure 2所示) 輔助的韻律補償編碼器。實驗表明,該方法能夠有效地緩解解耦後的情感嵌入中情感表現力受損的影響,在提升遷移情感表現力的同時保持目標說話人的音色。

語音合成示例:

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

行業應用:打造業內領先的AI配音神器「魔音工坊」

近年來,出門問問在語音技術上的積累日漸成熟,並逐漸打磨一款面向消費者的AI配音產品——「魔音工坊」。該產品基於出門問問自研語音合成系統MeetVoice,發音精準,韻律流暢,現已成為深受短視頻創作者們喜愛的頂級配音神器。

魔音工坊擁有豐富的配音編輯功能,在類似word「編輯器」界面,可輕鬆實現停頓調節、多音字、多發音人、局部變速等全方位的編輯,另有行業獨創的重讀、拖音等調音功能,讓AI配音進一步媲美真人。

但如何應用魔音工坊的海量數據,讓不同風格、不同情感的說話人互相結合,使之擁有更多情感豐富、風格多樣的發音人,如何讓發音人的情感更生動充沛,是魔音工坊一直追求的極致產品體驗。

當前語音合成系統對風格/情感匹配的高質量音庫有較強的依賴性,該項技術可以通過風格/情感遷移,實現「單人千音」的效果。該項技術的落地將大大提升風格化情感化語音合成系統的構建效率,降低系統構建的成本。

為了實現「單人千音」的效果,魔音工坊也研發實現了「聲音轉換」,即把A的說話風格(節奏和韻律等)遷移到B上。轉換後的聲音,會有B的音色,並擁有A的節奏和韻律等信息。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

(魔音工坊產品界面)

「魔音工坊」的「聲音轉換」可實現:

1、AI合成效果不佳之處,比如破音、發音不清晰/不飽滿等,可以使用這個功能,讓你的AI主播,學習其他AI主播的播報效果,或學習你的朗讀效果;

2、某個地方需要重讀,但是AI卻輕描淡寫,這時候可以嘗試使用聲音轉換功能,實現「知輕重」的效果;

3、某個地方想要拖音,但是AI讀的比較短平快,這時候使用聲音轉換,實現「懂緩急」的效果;

4、某句關鍵的台詞,AI合成的效果不夠出色,感覺AI配音的效果不佳(比如視頻的開頭黃金10秒,用戶都希望配音能夠出彩),這時可以嘗試使用聲音轉換,讓你的精彩演繹,賦能給魔音工坊的AI發音人,讓聲音更生動,富於情緒,更有情感。

此篇論文是我們的一部分探索,期待一下魔音工坊上線更多樣性的發音人,也讓每一個人都成為聲音的導演,助力AI配音行業的蓬勃發展。

未來,出門問問將繼續深耕語音、聲學研發積累,並逐步落地在更多產品服務中。以更智能的技術創造更貼心的語音體驗,富於情感,按「需」發音。讓人和機器的交互更自然,讓AI走進更多人的日常生活。

論文:《Cross-speaker Emotion Transfer Based on Prosody Compensation for End-to-End Speech Synthesis》

作者:李濤,王新升,謝啟聰,王智超,江明奇,謝磊

科技分類資訊推薦

快訊|25億元!賽力斯擬收購華為持有的全球所有類別「問界」商標以及相關專利 - 天天要聞

快訊|25億元!賽力斯擬收購華為持有的全球所有類別「問界」商標以及相關專利

7月2日晚,封面新聞最新消息,賽力斯發布的公告顯示,賽力斯擬收購華為持有的全球所有類別「問界」及其他相關商標權及申請權、相關外觀設計專利,收購價款合計25億元。據了解,此項商品和品牌資產轉讓不影響雙方現有的合作業務,並且進一步保障了AITO問界的長遠發展,也體現了雙方以用戶為中心,著力做好聯合業務和AITO問界...
菲爾·席勒代表蘋果以觀察員身份入駐OpenAI董事:地位和微軟持平 - 天天要聞

菲爾·席勒代表蘋果以觀察員身份入駐OpenAI董事:地位和微軟持平

IT之家 7 月 3 日消息,彭博社今天報道稱,前營銷主管菲爾・席勒(Phil Schiller)將代表蘋果公司,加入 OpenAI 的非營利性董事會,充當觀察員的角色,意味著他可參加 OpenAI 董事會會議,但不能投票或擔任董事。席勒加入董事會意味著蘋果可以更加深入地了解 OpenAI 公司的內部運作,而且通過深化和 OpenAI 之間的合作,可...
小米 MIX Fold 4 摺疊屏手機背面渲染圖曝光 - 天天要聞

小米 MIX Fold 4 摺疊屏手機背面渲染圖曝光

IT之家 7 月 3 日消息,消息源 Evan Blass 今天在 X 平台發布推文,分享了小米 MIX Fold 4 摺疊屏手機的高清渲染圖(圖片有加工成分在,最終零售版本可能會存在差異)。IT之家今年 6 月報道,型號為 24072PX77C 的小米新機通過了國家 3C 質量認證,結合之前的泄露信息,該機即為小米正準備發布的 MIX Fold 4 摺疊屏
微信iOS 8.0.50正式版發布:視頻支持倍速播放 - 天天要聞

微信iOS 8.0.50正式版發布:視頻支持倍速播放

站長之家(ChinaZ.com)7月2日 消息:微信iOS平台今日正式推出了8.0.50版本,雖然官方更新日誌依舊簡潔,僅提及「解決了一些已知問題」,但深入探索後不難發現,此次更新實則暗藏玄機,為用戶帶來了多項實用新特性。最引人注目的莫過於視頻倍速播放功能的加入,這一貼心設計讓用戶在面對好友發來的長視頻時,能夠靈活調整播...
Sabrent 推出 Rocket V60 microSD 存儲卡:寫入速度高於 60MB/s - 天天要聞

Sabrent 推出 Rocket V60 microSD 存儲卡:寫入速度高於 60MB/s

IT之家 7 月 2 日消息,Sabrent 今日推出新款 Rocket V60 系列 microSDXC 存儲卡,提供 128GB、256GB、512GB 三種容量,滿足 V60、UHS-II 與 A1 標準。128GB:34.99 美元(IT之家備註:當前約 255 元人民幣)256GB:49.99 美元(當前約 364 元人民幣)512GB:119.9
同名收購被疑利益輸送,三協電機恢復IPO - 天天要聞

同名收購被疑利益輸送,三協電機恢復IPO

7月2日,北京證券交易所網站公開發行並上市進程顯示,曾是新三板掛牌公司的常州三協電機股份有限公司(以下簡稱「三協電機」或「公司」)更新了第一輪問詢的回復。值得注意的是,三協電機衝擊北交所進程曾在今年三月中止。2023年年底,三協電機北交所IPO獲受理,保薦機構為東北證券股份有限公司;1月29日,該公司收到北交所...