出门问问论文入选全球语音技术顶会INTERSPEECH 2022

2022年07月14日11:22:38 科技 1666

如何让AI语音更富有人类情感?

近日,全球语音领域顶级会议INTERSPEECH 2022公布论文入选名单,出门问问西工大谢磊教授ASLP实验室合作撰写的团队情感语音合成论文入选,并将在会议上进行展示。

INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,也是全球最大的综合性语音领域的科技盛会,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。 此次论文入选,代表出门问问在语音合成领域的科研实力和技术创新能力获得国际学术界的认可。

出门问问论文入选全球语音技术顶会INTERSPEECH 2022 - 天天要闻

论文贡献:跨说话人情感迁移语音合成的实现路径

如何让AI语音更富有人类情感,更有情绪化的表达?出门问问在题为《端到端语音合成中基于韵律补偿的跨说话人情感迁移》的论文中作以阐述。

跨说话人情感迁移语音合成主要是将情感从具有情感数据的源说话人迁移到新的没有该情感的目标说话人上,使目标说话人能够表达其训练数据中不存在的各种情感。“情感迁移”是跨说话人场景中最流行的策略。在这项研究中,从源说话人的情感参考音频中提取与说话人无关的情感嵌入至关重要。否则,情感嵌入中保留的说话人信息就会影响目标说话人的音色。然而,在消除源说话人音色信息的过程中,情感嵌入所传递的情感信息往往会被削弱,导致合成目标说话人的情感语音表现力平淡。

如何防止情感嵌入中的情感信息被削弱是一个挑战。具体来说,在合成语音中,具有足够情感信息的reference embedding 往往会导致源说话人音色泄漏,而进一步消除reference embedding中的说话人信息可能会使迁移的情感表达削弱。为了应对这一挑战,出门问问在论文中提出一种韵律补偿策略来补偿情感嵌入中由于说话人信息消除造成的情感信息损失,以提升合成语音的情感表达能力。

出门问问论文入选全球语音技术顶会INTERSPEECH 2022 - 天天要闻

论文中表达,由预训练的 Automatic Speech Recognition(ASR)模型产生的隐藏表征保留了一定的韵律信息,但没有明显的说话人信息,于是我们提出了一个韵律补偿模块(prosody compensation module, PCM)以参考音频通过ASR模型得到的中间表征作为输入用于补偿情感信息。本文提出的带韵律补偿的跨说话人情感语音合成模型,包含说话人解耦模块(speaker disentangling module, SDM)、说话人嵌入模块和PCM模块。其中,SDM是从参考频谱中获得说话人无关的情感嵌入,PCM是从AIF中获得额外的情感信息,以补偿因解藕说话人音色而导致的情感嵌入中的情感信息损失。为了有效地从AIF中提取全局韵律信息,还引入了一种由全局上下文模块global context(GC) (如Figure 2所示) 辅助的韵律补偿编码器。实验表明,该方法能够有效地缓解解耦后的情感嵌入中情感表现力受损的影响,在提升迁移情感表现力的同时保持目标说话人的音色。

语音合成示例:

出门问问论文入选全球语音技术顶会INTERSPEECH 2022 - 天天要闻

行业应用:打造业内领先的AI配音神器“魔音工坊”

近年来,出门问问在语音技术上的积累日渐成熟,并逐渐打磨一款面向消费者的AI配音产品——“魔音工坊”。该产品基于出门问问自研语音合成系统MeetVoice,发音精准,韵律流畅,现已成为深受短视频创作者们喜爱的顶级配音神器。

魔音工坊拥有丰富的配音编辑功能,在类似word“编辑器”界面,可轻松实现停顿调节、多音字、多发音人、局部变速等全方位的编辑,另有行业独创的重读、拖音等调音功能,让AI配音进一步媲美真人。

但如何应用魔音工坊的海量数据,让不同风格、不同情感的说话人互相结合,使之拥有更多情感丰富、风格多样的发音人,如何让发音人的情感更生动充沛,是魔音工坊一直追求的极致产品体验。

当前语音合成系统对风格/情感匹配的高质量音库有较强的依赖性,该项技术可以通过风格/情感迁移,实现“单人千音”的效果。该项技术的落地将大大提升风格化情感化语音合成系统的构建效率,降低系统构建的成本。

为了实现“单人千音”的效果,魔音工坊也研发实现了“声音转换”,即把A的说话风格(节奏和韵律等)迁移到B上。转换后的声音,会有B的音色,并拥有A的节奏和韵律等信息。

出门问问论文入选全球语音技术顶会INTERSPEECH 2022 - 天天要闻

(魔音工坊产品界面)

“魔音工坊”的“声音转换”可实现:

1、AI合成效果不佳之处,比如破音、发音不清晰/不饱满等,可以使用这个功能,让你的AI主播,学习其他AI主播的播报效果,或学习你的朗读效果;

2、某个地方需要重读,但是AI却轻描淡写,这时候可以尝试使用声音转换功能,实现“知轻重”的效果;

3、某个地方想要拖音,但是AI读的比较短平快,这时候使用声音转换,实现“懂缓急”的效果;

4、某句关键的台词,AI合成的效果不够出色,感觉AI配音的效果不佳(比如视频的开头黄金10秒,用户都希望配音能够出彩),这时可以尝试使用声音转换,让你的精彩演绎,赋能给魔音工坊的AI发音人,让声音更生动,富于情绪,更有情感。

此篇论文是我们的一部分探索,期待一下魔音工坊上线更多样性的发音人,也让每一个人都成为声音的导演,助力AI配音行业的蓬勃发展。

未来,出门问问将继续深耕语音、声学研发积累,并逐步落地在更多产品服务中。以更智能的技术创造更贴心的语音体验,富于情感,按“需”发音。让人和机器的交互更自然,让AI走进更多人的日常生活。

论文:《Cross-speaker Emotion Transfer Based on Prosody Compensation for End-to-End Speech Synthesis》

作者:李涛,王新升,谢启聪,王智超,江明奇,谢磊

科技分类资讯推荐

特斯拉官宣Model 3长续航全轮驱动版28.55万起售 - 天天要闻

特斯拉官宣Model 3长续航全轮驱动版28.55万起售

7月1日,特斯拉官方微博宣布Model 3长续航全轮驱动版车型升级,CLTC续航升至753公里,百公里加速升至3.8秒,售价28.55万元起。特斯拉表示,7月31日(含)前下单,还可享8000元限时保险补贴、5年0息、8000元车漆选装金等购车优惠政策。...
央视新闻报道:全国加能站充电桩配置率达45% - 天天要闻

央视新闻报道:全国加能站充电桩配置率达45%

报名 | 扫描上图二维码,锁定超级沙龙重庆站席位 产品 | 扫描上方二维码提交需求 可高效对接 本文来源 | 中国石油石化6月28日,2025能源产业生态论坛在北京召开。论坛上发布了《中国加油(能)站发展蓝皮书2024-2025》,数据显示,当前,传统加油站正从单一能源供给,向综合服务生态深度转型。《蓝皮书》显示,截至2024年底...
韦东奕,民族的脊梁,崇尚他,国家民族更有前途和希望 - 天天要闻

韦东奕,民族的脊梁,崇尚他,国家民族更有前途和希望

最近,北大韦神韦东奕又“霸屏”了。这位北京大学助理教授、数学科学学院微分方程教研室研究员,因开通个人网络账号,两天涨粉两千万。这是什么概念?一般头部网络主播,即便有团队共同打造账号,要涨粉两千万,没有几年时间也难以达成。这说明什么?
厉害!荣耀400系列三周激活量超70万台 - 天天要闻

厉害!荣耀400系列三周激活量超70万台

上周行业消息显示荣耀400系列全球激活量已经突破100万台,还引起了行业的热议。大家都在讲这一次荣耀400系列的销量确实牛,市场认可度确实高。不过当时给出的是全球数据,并不知道国内与海外的占比。
YU7销量为何没受前段时间小米负面的影响? - 天天要闻

YU7销量为何没受前段时间小米负面的影响?

为什么前段时间小米负面不断,但是现在SU7发布之后,一样是卖爆了呢?其实我之前就说过了,这些负面不会影响到小米的销量。互联网是健忘的。之前那个小米手机发生高速车祸,很多人在说小米的自驾问题。但是实际上大家要明白,真正会去买小米这个汽车的人,他们的侧重点是什么?
华为发布新一代OceanStor Dorado 3000融合全闪存存储:最高1600块SSD、8PiB容量 - 天天要闻

华为发布新一代OceanStor Dorado 3000融合全闪存存储:最高1600块SSD、8PiB容量

快科技6月30日消息,华为今日正式发布新一代OceanStor Dorado 3000融合全闪存存储。最大支持2 TB内存、1600块SSD,提供高达8 PiB(‌1PiB=1024TB)可用容量,单系统最大可扩展到16个控制器。具有以下三大优势:全新融合:华为新一代OceanStor Dorado 3000采用原生块、文件、对象并行架构,一套存储满足多种业