出門問問論文入選全球語音技術頂會INTERSPEECH 2022

2022年07月14日11:22:38 科技 1666

如何讓AI語音更富有人類情感？

近日，全球語音領域頂級會議INTERSPEECH 2022公布論文入選名單，出門問問與西工大謝磊教授ASLP實驗室合作撰寫的團隊情感語音合成論文入選，並將在會議上進行展示。

INTERSPEECH在國際上享有極高盛譽並具有廣泛的學術影響力，是由國際語音通訊協會（ISCA）創辦的旗艦級國際會議，也是全球最大的綜合性語音領域的科技盛會，對參會企業和單位有着嚴苛的准入門檻，歷屆INTERSPEECH會議都倍受全球各地語音研究領域人士的廣泛關注。此次論文入選，代表出門問問在語音合成領域的科研實力和技術創新能力獲得國際學術界的認可。

論文貢獻：跨說話人情感遷移語音合成的實現路徑

如何讓AI語音更富有人類情感，更有情緒化的表達？出門問問在題為《端到端語音合成中基於韻律補償的跨說話人情感遷移》的論文中作以闡述。

跨說話人情感遷移語音合成主要是將情感從具有情感數據的源說話人遷移到新的沒有該情感的目標說話人上，使目標說話人能夠表達其訓練數據中不存在的各種情感。“情感遷移”是跨說話人場景中最流行的策略。在這項研究中，從源說話人的情感參考音頻中提取與說話人無關的情感嵌入至關重要。否則，情感嵌入中保留的說話人信息就會影響目標說話人的音色。然而，在消除源說話人音色信息的過程中，情感嵌入所傳遞的情感信息往往會被削弱，導致合成目標說話人的情感語音表現力平淡。

如何防止情感嵌入中的情感信息被削弱是一個挑戰。具體來說，在合成語音中，具有足夠情感信息的reference embedding 往往會導致源說話人音色泄漏，而進一步消除reference embedding中的說話人信息可能會使遷移的情感表達削弱。為了應對這一挑戰，出門問問在論文中提出一種韻律補償策略來補償情感嵌入中由於說話人信息消除造成的情感信息損失，以提升合成語音的情感表達能力。

論文中表達，由預訓練的 Automatic Speech Recognition（ASR）模型產生的隱藏表徵保留了一定的韻律信息，但沒有明顯的說話人信息，於是我們提出了一個韻律補償模塊（prosody compensation module, PCM）以參考音頻通過ASR模型得到的中間表徵作為輸入用於補償情感信息。本文提出的帶韻律補償的跨說話人情感語音合成模型，包含說話人解耦模塊（speaker disentangling module, SDM）、說話人嵌入模塊和PCM模塊。其中，SDM是從參考頻譜中獲得說話人無關的情感嵌入，PCM是從AIF中獲得額外的情感信息，以補償因解藕說話人音色而導致的情感嵌入中的情感信息損失。為了有效地從AIF中提取全局韻律信息，還引入了一種由全局上下文模塊global context（GC） (如Figure 2所示) 輔助的韻律補償編碼器。實驗表明，該方法能夠有效地緩解解耦後的情感嵌入中情感表現力受損的影響，在提升遷移情感表現力的同時保持目標說話人的音色。

語音合成示例: