出门问问论文入选全球语音技术顶会INTERSPEECH 2022

2022年07月14日11:22:38 科技 1666

如何让AI语音更富有人类情感？

近日，全球语音领域顶级会议INTERSPEECH 2022公布论文入选名单，出门问问与西工大谢磊教授ASLP实验室合作撰写的团队情感语音合成论文入选，并将在会议上进行展示。

INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力，是由国际语音通讯协会（ISCA）创办的旗舰级国际会议，也是全球最大的综合性语音领域的科技盛会，对参会企业和单位有着严苛的准入门槛，历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。此次论文入选，代表出门问问在语音合成领域的科研实力和技术创新能力获得国际学术界的认可。

论文贡献：跨说话人情感迁移语音合成的实现路径

如何让AI语音更富有人类情感，更有情绪化的表达？出门问问在题为《端到端语音合成中基于韵律补偿的跨说话人情感迁移》的论文中作以阐述。

跨说话人情感迁移语音合成主要是将情感从具有情感数据的源说话人迁移到新的没有该情感的目标说话人上，使目标说话人能够表达其训练数据中不存在的各种情感。“情感迁移”是跨说话人场景中最流行的策略。在这项研究中，从源说话人的情感参考音频中提取与说话人无关的情感嵌入至关重要。否则，情感嵌入中保留的说话人信息就会影响目标说话人的音色。然而，在消除源说话人音色信息的过程中，情感嵌入所传递的情感信息往往会被削弱，导致合成目标说话人的情感语音表现力平淡。

如何防止情感嵌入中的情感信息被削弱是一个挑战。具体来说，在合成语音中，具有足够情感信息的reference embedding 往往会导致源说话人音色泄漏，而进一步消除reference embedding中的说话人信息可能会使迁移的情感表达削弱。为了应对这一挑战，出门问问在论文中提出一种韵律补偿策略来补偿情感嵌入中由于说话人信息消除造成的情感信息损失，以提升合成语音的情感表达能力。

论文中表达，由预训练的 Automatic Speech Recognition（ASR）模型产生的隐藏表征保留了一定的韵律信息，但没有明显的说话人信息，于是我们提出了一个韵律补偿模块（prosody compensation module, PCM）以参考音频通过ASR模型得到的中间表征作为输入用于补偿情感信息。本文提出的带韵律补偿的跨说话人情感语音合成模型，包含说话人解耦模块（speaker disentangling module, SDM）、说话人嵌入模块和PCM模块。其中，SDM是从参考频谱中获得说话人无关的情感嵌入，PCM是从AIF中获得额外的情感信息，以补偿因解藕说话人音色而导致的情感嵌入中的情感信息损失。为了有效地从AIF中提取全局韵律信息，还引入了一种由全局上下文模块global context（GC） (如Figure 2所示) 辅助的韵律补偿编码器。实验表明，该方法能够有效地缓解解耦后的情感嵌入中情感表现力受损的影响，在提升迁移情感表现力的同时保持目标说话人的音色。

语音合成示例: