出門問問論文入選全球語音技術頂會INTERSPEECH 2022

2022年07月14日11:22:38 科技 1666

如何讓AI語音更富有人類情感?

近日,全球語音領域頂級會議INTERSPEECH 2022公布論文入選名單,出門問問西工大謝磊教授ASLP實驗室合作撰寫的團隊情感語音合成論文入選,並將在會議上進行展示。

INTERSPEECH在國際上享有極高盛譽並具有廣泛的學術影響力,是由國際語音通訊協會(ISCA)創辦的旗艦級國際會議,也是全球最大的綜合性語音領域的科技盛會,對參會企業和單位有着嚴苛的准入門檻,歷屆INTERSPEECH會議都倍受全球各地語音研究領域人士的廣泛關注。 此次論文入選,代表出門問問在語音合成領域的科研實力和技術創新能力獲得國際學術界的認可。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

論文貢獻:跨說話人情感遷移語音合成的實現路徑

如何讓AI語音更富有人類情感,更有情緒化的表達?出門問問在題為《端到端語音合成中基於韻律補償的跨說話人情感遷移》的論文中作以闡述。

跨說話人情感遷移語音合成主要是將情感從具有情感數據的源說話人遷移到新的沒有該情感的目標說話人上,使目標說話人能夠表達其訓練數據中不存在的各種情感。「情感遷移」是跨說話人場景中最流行的策略。在這項研究中,從源說話人的情感參考音頻中提取與說話人無關的情感嵌入至關重要。否則,情感嵌入中保留的說話人信息就會影響目標說話人的音色。然而,在消除源說話人音色信息的過程中,情感嵌入所傳遞的情感信息往往會被削弱,導致合成目標說話人的情感語音表現力平淡。

如何防止情感嵌入中的情感信息被削弱是一個挑戰。具體來說,在合成語音中,具有足夠情感信息的reference embedding 往往會導致源說話人音色泄漏,而進一步消除reference embedding中的說話人信息可能會使遷移的情感表達削弱。為了應對這一挑戰,出門問問在論文中提出一種韻律補償策略來補償情感嵌入中由於說話人信息消除造成的情感信息損失,以提升合成語音的情感表達能力。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

論文中表達,由預訓練的 Automatic Speech Recognition(ASR)模型產生的隱藏表徵保留了一定的韻律信息,但沒有明顯的說話人信息,於是我們提出了一個韻律補償模塊(prosody compensation module, PCM)以參考音頻通過ASR模型得到的中間表徵作為輸入用於補償情感信息。本文提出的帶韻律補償的跨說話人情感語音合成模型,包含說話人解耦模塊(speaker disentangling module, SDM)、說話人嵌入模塊和PCM模塊。其中,SDM是從參考頻譜中獲得說話人無關的情感嵌入,PCM是從AIF中獲得額外的情感信息,以補償因解藕說話人音色而導致的情感嵌入中的情感信息損失。為了有效地從AIF中提取全局韻律信息,還引入了一種由全局上下文模塊global context(GC) (如Figure 2所示) 輔助的韻律補償編碼器。實驗表明,該方法能夠有效地緩解解耦後的情感嵌入中情感表現力受損的影響,在提升遷移情感表現力的同時保持目標說話人的音色。

語音合成示例:

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

行業應用:打造業內領先的AI配音神器「魔音工坊」

近年來,出門問問在語音技術上的積累日漸成熟,並逐漸打磨一款面向消費者的AI配音產品——「魔音工坊」。該產品基於出門問問自研語音合成系統MeetVoice,發音精準,韻律流暢,現已成為深受短視頻創作者們喜愛的頂級配音神器。

魔音工坊擁有豐富的配音編輯功能,在類似word「編輯器」界面,可輕鬆實現停頓調節、多音字、多發音人、局部變速等全方位的編輯,另有行業獨創的重讀、拖音等調音功能,讓AI配音進一步媲美真人。

但如何應用魔音工坊的海量數據,讓不同風格、不同情感的說話人互相結合,使之擁有更多情感豐富、風格多樣的發音人,如何讓發音人的情感更生動充沛,是魔音工坊一直追求的極致產品體驗。

當前語音合成系統對風格/情感匹配的高質量音庫有較強的依賴性,該項技術可以通過風格/情感遷移,實現「單人千音」的效果。該項技術的落地將大大提升風格化情感化語音合成系統的構建效率,降低系統構建的成本。

為了實現「單人千音」的效果,魔音工坊也研發實現了「聲音轉換」,即把A的說話風格(節奏和韻律等)遷移到B上。轉換後的聲音,會有B的音色,並擁有A的節奏和韻律等信息。

出門問問論文入選全球語音技術頂會INTERSPEECH 2022 - 天天要聞

(魔音工坊產品界面)

「魔音工坊」的「聲音轉換」可實現:

1、AI合成效果不佳之處,比如破音、發音不清晰/不飽滿等,可以使用這個功能,讓你的AI主播,學習其他AI主播的播報效果,或學習你的朗讀效果;

2、某個地方需要重讀,但是AI卻輕描淡寫,這時候可以嘗試使用聲音轉換功能,實現「知輕重」的效果;

3、某個地方想要拖音,但是AI讀的比較短平快,這時候使用聲音轉換,實現「懂緩急」的效果;

4、某句關鍵的台詞,AI合成的效果不夠出色,感覺AI配音的效果不佳(比如視頻的開頭黃金10秒,用戶都希望配音能夠出彩),這時可以嘗試使用聲音轉換,讓你的精彩演繹,賦能給魔音工坊的AI發音人,讓聲音更生動,富於情緒,更有情感。

此篇論文是我們的一部分探索,期待一下魔音工坊上線更多樣性的發音人,也讓每一個人都成為聲音的導演,助力AI配音行業的蓬勃發展。

未來,出門問問將繼續深耕語音、聲學研發積累,並逐步落地在更多產品服務中。以更智能的技術創造更貼心的語音體驗,富於情感,按「需」發音。讓人和機器的交互更自然,讓AI走進更多人的日常生活。

論文:《Cross-speaker Emotion Transfer Based on Prosody Compensation for End-to-End Speech Synthesis》

作者:李濤,王新升,謝啟聰,王智超,江明奇,謝磊

科技分類資訊推薦

鄒暉出任格力集團董事長 - 天天要聞

鄒暉出任格力集團董事長

本文來源:時代財經 珠海格力集團官網更新信息顯示,鄒暉已正式出任該集團黨委書記、董事長。公開資料顯示,鄒暉於1982年生,本科學歷。鄒暉曾擔任珠海市人大常委會農村農業工作委員會副主任,後轉任珠海市國資委副主任。此次調整後,格力集團領導班子為:鄒暉擔任集團黨委書記、董事長,王軼任黨委副書記、董事、總裁,吳...
【產業互聯網周報】阿里合伙人名單最新變動:9人已退出;美團在AI投入超百億元;黃仁勛:機械人技術是芯片製造商繼AI之後的最大機遇 - 天天要聞

【產業互聯網周報】阿里合伙人名單最新變動:9人已退出;美團在AI投入超百億元;黃仁勛:機械人技術是芯片製造商繼AI之後的最大機遇

圖片系AI生成【產業互聯網周報是由鈦媒體TMTpost發佈的特色產品,將整合本周最重要的企業級服務、雲計算、大數據領域的前沿趨勢、重磅政策及行研報告。】國內資訊北京經信局:北京累計備案上線大模型132款,全國佔比35%在2025全球數字經濟大會新聞發佈會上,北京市經濟和信息化局黨組成員、副局長、新聞發言人劉維亮表示,...
雷軍:小米YU7將開啟限時改配 非准現車鎖單用戶可參與 - 天天要聞

雷軍:小米YU7將開啟限時改配 非准現車鎖單用戶可參與

來源:環球網 【環球網科技綜合報道】7月1日消息,小米董事長雷軍今日在其個人社交賬號上宣布,小米YU7將開啟限時改配服務,非准現車的鎖單用戶均可參與。此次改配範圍明確,僅限於在YU7標準版、Pro版、Max版之間進行版本修改,或對YU7訂單
格力集團迎來新任董事長 - 天天要聞

格力集團迎來新任董事長

格力集團官網近日更新顯示,出生於1982年的鄒暉,已任集團黨委書記、董事長。格力集團是珠海市屬國企,它與大家熟知的上市公司格力電器是兩家企業。著名女企業家董明珠曾同時任格力集團董事長、格力電器董事長,她早在2016年10月就已經卸任格力集團董事長職務,目前仍擔任格力電器董事長。截至今年3月,格力集團持有格力電...
深圳華強新設電子公司,含數字技術服務業務 - 天天要聞

深圳華強新設電子公司,含數字技術服務業務

企查查APP顯示,近日,深圳聚華芯電子有限公司成立,法定代表人為陳俊彬,註冊資本為200萬元,經營範圍包含:電子產品銷售;數字技術服務;電子元器件批發;電子元器件零售;電工儀器儀錶銷售;智能儀器儀錶銷售;數字視頻監控系統銷售等。企查查股權穿透顯示,該公司由深圳華強(000062)間接全資持股。...