出門問問論文入選全球語音技術頂會INTERSPEECH 2022

2022年07月14日11:22:38 科技 1666

如何讓AI語音更富有人類情感?

近日,全球語音領域頂級會議INTERSPEECH 2022公布論文入選名單,出門問問西工大謝磊教授ASLP實驗室合作撰寫的團隊情感語音合成論文入選,並將在會議上進行展示。

INTERSPEECH在國際上享有極高盛譽並具有廣泛的學術影響力,是由國際語音通訊協會(ISCA)創辦的旗艦級國際會議,也是全球最大的綜合性語音領域的科技盛會,對參會企業和單位有着嚴苛的准入門檻,歷屆INTERSPEECH會議都倍受全球各地語音研究領域人士的廣泛關注。 此次論文入選,代表出門問問在語音合成領域的科研實力和技術創新能力獲得國際學術界的認可。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

論文貢獻:跨說話人情感遷移語音合成的實現路徑

如何讓AI語音更富有人類情感,更有情緒化的表達?出門問問在題為《端到端語音合成中基於韻律補償的跨說話人情感遷移》的論文中作以闡述。

跨說話人情感遷移語音合成主要是將情感從具有情感數據的源說話人遷移到新的沒有該情感的目標說話人上,使目標說話人能夠表達其訓練數據中不存在的各種情感。“情感遷移”是跨說話人場景中最流行的策略。在這項研究中,從源說話人的情感參考音頻中提取與說話人無關的情感嵌入至關重要。否則,情感嵌入中保留的說話人信息就會影響目標說話人的音色。然而,在消除源說話人音色信息的過程中,情感嵌入所傳遞的情感信息往往會被削弱,導致合成目標說話人的情感語音表現力平淡。

如何防止情感嵌入中的情感信息被削弱是一個挑戰。具體來說,在合成語音中,具有足夠情感信息的reference embedding 往往會導致源說話人音色泄漏,而進一步消除reference embedding中的說話人信息可能會使遷移的情感表達削弱。為了應對這一挑戰,出門問問在論文中提出一種韻律補償策略來補償情感嵌入中由於說話人信息消除造成的情感信息損失,以提升合成語音的情感表達能力。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

論文中表達,由預訓練的 Automatic Speech Recognition(ASR)模型產生的隱藏表徵保留了一定的韻律信息,但沒有明顯的說話人信息,於是我們提出了一個韻律補償模塊(prosody compensation module, PCM)以參考音頻通過ASR模型得到的中間表徵作為輸入用於補償情感信息。本文提出的帶韻律補償的跨說話人情感語音合成模型,包含說話人解耦模塊(speaker disentangling module, SDM)、說話人嵌入模塊和PCM模塊。其中,SDM是從參考頻譜中獲得說話人無關的情感嵌入,PCM是從AIF中獲得額外的情感信息,以補償因解藕說話人音色而導致的情感嵌入中的情感信息損失。為了有效地從AIF中提取全局韻律信息,還引入了一種由全局上下文模塊global context(GC) (如Figure 2所示) 輔助的韻律補償編碼器。實驗表明,該方法能夠有效地緩解解耦後的情感嵌入中情感表現力受損的影響,在提升遷移情感表現力的同時保持目標說話人的音色。

語音合成示例:

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

行業應用:打造業內領先的AI配音神器「魔音工坊」

近年來,出門問問在語音技術上的積累日漸成熟,並逐漸打磨一款面向消費者的AI配音產品——「魔音工坊」。該產品基於出門問問自研語音合成系統MeetVoice,發音精準,韻律流暢,現已成為深受短視頻創作者們喜愛的頂級配音神器。

魔音工坊擁有豐富的配音編輯功能,在類似word「編輯器」界面,可輕鬆實現停頓調節、多音字、多發音人、局部變速等全方位的編輯,另有行業獨創的重讀、拖音等調音功能,讓AI配音進一步媲美真人。

但如何應用魔音工坊的海量數據,讓不同風格、不同情感的說話人互相結合,使之擁有更多情感豐富、風格多樣的發音人,如何讓發音人的情感更生動充沛,是魔音工坊一直追求的極致產品體驗。

當前語音合成系統對風格/情感匹配的高質量音庫有較強的依賴性,該項技術可以通過風格/情感遷移,實現“單人千音”的效果。該項技術的落地將大大提升風格化情感化語音合成系統的構建效率,降低系統構建的成本。

為了實現“單人千音”的效果,魔音工坊也研發實現了“聲音轉換”,即把A的說話風格(節奏和韻律等)遷移到B上。轉換後的聲音,會有B的音色,並擁有A的節奏和韻律等信息。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

(魔音工坊產品界面)

「魔音工坊」的“聲音轉換”可實現:

1、AI合成效果不佳之處,比如破音、發音不清晰/不飽滿等,可以使用這個功能,讓你的AI主播,學習其他AI主播的播報效果,或學習你的朗讀效果;

2、某個地方需要重讀,但是AI卻輕描淡寫,這時候可以嘗試使用聲音轉換功能,實現「知輕重」的效果;

3、某個地方想要拖音,但是AI讀的比較短平快,這時候使用聲音轉換,實現「懂緩急」的效果;

4、某句關鍵的台詞,AI合成的效果不夠出色,感覺AI配音的效果不佳(比如視頻的開頭黃金10秒,用戶都希望配音能夠出彩),這時可以嘗試使用聲音轉換,讓你的精彩演繹,賦能給魔音工坊的AI發音人,讓聲音更生動,富於情緒,更有情感。

此篇論文是我們的一部分探索,期待一下魔音工坊上線更多樣性的發音人,也讓每一個人都成為聲音的導演,助力AI配音行業的蓬勃發展。

未來,出門問問將繼續深耕語音、聲學研發積累,並逐步落地在更多產品服務中。以更智能的技術創造更貼心的語音體驗,富於情感,按「需」發音。讓人和機器的交互更自然,讓AI走進更多人的日常生活。

論文:《Cross-speaker Emotion Transfer Based on Prosody Compensation for End-to-End Speech Synthesis》

作者:李濤,王新升,謝啟聰,王智超,江明奇,謝磊

科技分類資訊推薦

向深地進軍,揭秘全球最大洞中實驗室 - 天天要聞

向深地進軍,揭秘全球最大洞中實驗室

地球有多深?內部又有哪些資源可以利用?日前,記者跟隨“高質量發展調研行”採訪團來到位於江蘇徐州卧牛山“洞”中的深地科學與工程雲龍湖實驗室,這個被譽為全球最大地下實驗室,它的建設對突破世界深地開發領域的前沿科技難題、解決國家發展面臨的資源空間制約難題等具有重大戰略意義。 圖為深地科學與工程雲龍湖實驗室...
首次大規模商業化應用,我國首個百兆瓦時級鈉離子儲能電站投產 - 天天要聞

首次大規模商業化應用,我國首個百兆瓦時級鈉離子儲能電站投產

IT之家 7 月 1 日消息,據央視新聞報道,大唐湖北 200 兆瓦時鈉離子新型儲能電站一期工程昨日正式投運。該電站是我國首個百兆瓦時級鈉離子儲能項目,也是實現鈉離子新型儲能技術在全球的首次大規模商業化應用。據介紹,該儲能系統由 42 套儲能電池倉和 21 套升壓變流一體機組成,選用 185 安時大容量鈉離子電芯,配套建設一...