出門問問論文入選全球語音技術頂會INTERSPEECH 2022

2022年07月14日11:22:38 科技 1666

如何讓AI語音更富有人類情感?

近日,全球語音領域頂級會議INTERSPEECH 2022公布論文入選名單,出門問問西工大謝磊教授ASLP實驗室合作撰寫的團隊情感語音合成論文入選,並將在會議上進行展示。

INTERSPEECH在國際上享有極高盛譽並具有廣泛的學術影響力,是由國際語音通訊協會(ISCA)創辦的旗艦級國際會議,也是全球最大的綜合性語音領域的科技盛會,對參會企業和單位有着嚴苛的准入門檻,歷屆INTERSPEECH會議都倍受全球各地語音研究領域人士的廣泛關注。 此次論文入選,代表出門問問在語音合成領域的科研實力和技術創新能力獲得國際學術界的認可。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

論文貢獻:跨說話人情感遷移語音合成的實現路徑

如何讓AI語音更富有人類情感,更有情緒化的表達?出門問問在題為《端到端語音合成中基於韻律補償的跨說話人情感遷移》的論文中作以闡述。

跨說話人情感遷移語音合成主要是將情感從具有情感數據的源說話人遷移到新的沒有該情感的目標說話人上,使目標說話人能夠表達其訓練數據中不存在的各種情感。“情感遷移”是跨說話人場景中最流行的策略。在這項研究中,從源說話人的情感參考音頻中提取與說話人無關的情感嵌入至關重要。否則,情感嵌入中保留的說話人信息就會影響目標說話人的音色。然而,在消除源說話人音色信息的過程中,情感嵌入所傳遞的情感信息往往會被削弱,導致合成目標說話人的情感語音表現力平淡。

如何防止情感嵌入中的情感信息被削弱是一個挑戰。具體來說,在合成語音中,具有足夠情感信息的reference embedding 往往會導致源說話人音色泄漏,而進一步消除reference embedding中的說話人信息可能會使遷移的情感表達削弱。為了應對這一挑戰,出門問問在論文中提出一種韻律補償策略來補償情感嵌入中由於說話人信息消除造成的情感信息損失,以提升合成語音的情感表達能力。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

論文中表達,由預訓練的 Automatic Speech Recognition(ASR)模型產生的隱藏表徵保留了一定的韻律信息,但沒有明顯的說話人信息,於是我們提出了一個韻律補償模塊(prosody compensation module, PCM)以參考音頻通過ASR模型得到的中間表徵作為輸入用於補償情感信息。本文提出的帶韻律補償的跨說話人情感語音合成模型,包含說話人解耦模塊(speaker disentangling module, SDM)、說話人嵌入模塊和PCM模塊。其中,SDM是從參考頻譜中獲得說話人無關的情感嵌入,PCM是從AIF中獲得額外的情感信息,以補償因解藕說話人音色而導致的情感嵌入中的情感信息損失。為了有效地從AIF中提取全局韻律信息,還引入了一種由全局上下文模塊global context(GC) (如Figure 2所示) 輔助的韻律補償編碼器。實驗表明,該方法能夠有效地緩解解耦後的情感嵌入中情感表現力受損的影響,在提升遷移情感表現力的同時保持目標說話人的音色。

語音合成示例:

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

行業應用:打造業內領先的AI配音神器「魔音工坊」

近年來,出門問問在語音技術上的積累日漸成熟,並逐漸打磨一款面向消費者的AI配音產品——「魔音工坊」。該產品基於出門問問自研語音合成系統MeetVoice,發音精準,韻律流暢,現已成為深受短視頻創作者們喜愛的頂級配音神器。

魔音工坊擁有豐富的配音編輯功能,在類似word「編輯器」界面,可輕鬆實現停頓調節、多音字、多發音人、局部變速等全方位的編輯,另有行業獨創的重讀、拖音等調音功能,讓AI配音進一步媲美真人。

但如何應用魔音工坊的海量數據,讓不同風格、不同情感的說話人互相結合,使之擁有更多情感豐富、風格多樣的發音人,如何讓發音人的情感更生動充沛,是魔音工坊一直追求的極致產品體驗。

當前語音合成系統對風格/情感匹配的高質量音庫有較強的依賴性,該項技術可以通過風格/情感遷移,實現“單人千音”的效果。該項技術的落地將大大提升風格化情感化語音合成系統的構建效率,降低系統構建的成本。

為了實現“單人千音”的效果,魔音工坊也研發實現了“聲音轉換”,即把A的說話風格(節奏和韻律等)遷移到B上。轉換後的聲音,會有B的音色,並擁有A的節奏和韻律等信息。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

(魔音工坊產品界面)

「魔音工坊」的“聲音轉換”可實現:

1、AI合成效果不佳之處,比如破音、發音不清晰/不飽滿等,可以使用這個功能,讓你的AI主播,學習其他AI主播的播報效果,或學習你的朗讀效果;

2、某個地方需要重讀,但是AI卻輕描淡寫,這時候可以嘗試使用聲音轉換功能,實現「知輕重」的效果;

3、某個地方想要拖音,但是AI讀的比較短平快,這時候使用聲音轉換,實現「懂緩急」的效果;

4、某句關鍵的台詞,AI合成的效果不夠出色,感覺AI配音的效果不佳(比如視頻的開頭黃金10秒,用戶都希望配音能夠出彩),這時可以嘗試使用聲音轉換,讓你的精彩演繹,賦能給魔音工坊的AI發音人,讓聲音更生動,富於情緒,更有情感。

此篇論文是我們的一部分探索,期待一下魔音工坊上線更多樣性的發音人,也讓每一個人都成為聲音的導演,助力AI配音行業的蓬勃發展。

未來,出門問問將繼續深耕語音、聲學研發積累,並逐步落地在更多產品服務中。以更智能的技術創造更貼心的語音體驗,富於情感,按「需」發音。讓人和機器的交互更自然,讓AI走進更多人的日常生活。

論文:《Cross-speaker Emotion Transfer Based on Prosody Compensation for End-to-End Speech Synthesis》

作者:李濤,王新升,謝啟聰,王智超,江明奇,謝磊

科技分類資訊推薦

特斯拉官宣Model 3長續航全輪驅動版28.55萬起售 - 天天要聞

特斯拉官宣Model 3長續航全輪驅動版28.55萬起售

7月1日,特斯拉官方微博宣布Model 3長續航全輪驅動版車型升級,CLTC續航升至753公里,百公里加速升至3.8秒,售價28.55萬元起。特斯拉表示,7月31日(含)前下單,還可享8000元限時保險補貼、5年0息、8000元車漆選裝金等購車優惠政策。...
央視新聞報道:全國加能站充電樁配置率達45% - 天天要聞

央視新聞報道:全國加能站充電樁配置率達45%

報名 | 掃描上圖二維碼,鎖定超級沙龍重慶站席位 產品 | 掃描上方二維碼提交需求 可高效對接 本文來源 | 中國石油石化6月28日,2025能源產業生態論壇在北京召開。論壇上發布了《中國加油(能)站發展藍皮書2024-2025》,數據顯示,當前,傳統加油站正從單一能源供給,向綜合服務生態深度轉型。《藍皮書》顯示,截至2024年底...
韋東奕,民族的脊樑,崇尚他,國家民族更有前途和希望 - 天天要聞

韋東奕,民族的脊樑,崇尚他,國家民族更有前途和希望

最近,北大韋神韋東奕又“霸屏”了。這位北京大學助理教授、數學科學學院微分方程教研室研究員,因開通個人網絡賬號,兩天漲粉兩千萬。這是什麼概念?一般頭部網絡主播,即便有團隊共同打造賬號,要漲粉兩千萬,沒有幾年時間也難以達成。這說明什麼?
厲害!榮耀400系列三周激活量超70萬台 - 天天要聞

厲害!榮耀400系列三周激活量超70萬台

上周行業消息顯示榮耀400系列全球激活量已經突破100萬台,還引起了行業的熱議。大家都在講這一次榮耀400系列的銷量確實牛,市場認可度確實高。不過當時給出的是全球數據,並不知道國內與海外的佔比。
YU7銷量為何沒受前段時間小米負面的影響? - 天天要聞

YU7銷量為何沒受前段時間小米負面的影響?

為什麼前段時間小米負面不斷,但是現在SU7發布之後,一樣是賣爆了呢?其實我之前就說過了,這些負面不會影響到小米的銷量。互聯網是健忘的。之前那個小米手機發生高速車禍,很多人在說小米的自駕問題。但是實際上大家要明白,真正會去買小米這個汽車的人,他們的側重點是什麼?
華為發布新一代OceanStor Dorado 3000融合全閃存存儲:最高1600塊SSD、8PiB容量 - 天天要聞

華為發布新一代OceanStor Dorado 3000融合全閃存存儲:最高1600塊SSD、8PiB容量

快科技6月30日消息,華為今日正式發布新一代OceanStor Dorado 3000融合全閃存存儲。最大支持2 TB內存、1600塊SSD,提供高達8 PiB(‌1PiB=1024TB)可用容量,單系統最大可擴展到16個控制器。具有以下三大優勢:全新融合:華為新一代OceanStor Dorado 3000採用原生塊、文件、對象並行架構,一套存儲滿足多種業