出门问问论文入选全球语音技术顶会INTERSPEECH 2022

2022年07月14日11:22:38 科技 1666

如何让AI语音更富有人类情感?

近日,全球语音领域顶级会议INTERSPEECH 2022公布论文入选名单,出门问问西工大谢磊教授ASLP实验室合作撰写的团队情感语音合成论文入选,并将在会议上进行展示。

INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,也是全球最大的综合性语音领域的科技盛会,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。 此次论文入选,代表出门问问在语音合成领域的科研实力和技术创新能力获得国际学术界的认可。

出门问问论文入选全球语音技术顶会INTERSPEECH 2022 - 天天要闻

论文贡献:跨说话人情感迁移语音合成的实现路径

如何让AI语音更富有人类情感,更有情绪化的表达?出门问问在题为《端到端语音合成中基于韵律补偿的跨说话人情感迁移》的论文中作以阐述。

跨说话人情感迁移语音合成主要是将情感从具有情感数据的源说话人迁移到新的没有该情感的目标说话人上,使目标说话人能够表达其训练数据中不存在的各种情感。“情感迁移”是跨说话人场景中最流行的策略。在这项研究中,从源说话人的情感参考音频中提取与说话人无关的情感嵌入至关重要。否则,情感嵌入中保留的说话人信息就会影响目标说话人的音色。然而,在消除源说话人音色信息的过程中,情感嵌入所传递的情感信息往往会被削弱,导致合成目标说话人的情感语音表现力平淡。

如何防止情感嵌入中的情感信息被削弱是一个挑战。具体来说,在合成语音中,具有足够情感信息的reference embedding 往往会导致源说话人音色泄漏,而进一步消除reference embedding中的说话人信息可能会使迁移的情感表达削弱。为了应对这一挑战,出门问问在论文中提出一种韵律补偿策略来补偿情感嵌入中由于说话人信息消除造成的情感信息损失,以提升合成语音的情感表达能力。

出门问问论文入选全球语音技术顶会INTERSPEECH 2022 - 天天要闻

论文中表达,由预训练的 Automatic Speech Recognition(ASR)模型产生的隐藏表征保留了一定的韵律信息,但没有明显的说话人信息,于是我们提出了一个韵律补偿模块(prosody compensation module, PCM)以参考音频通过ASR模型得到的中间表征作为输入用于补偿情感信息。本文提出的带韵律补偿的跨说话人情感语音合成模型,包含说话人解耦模块(speaker disentangling module, SDM)、说话人嵌入模块和PCM模块。其中,SDM是从参考频谱中获得说话人无关的情感嵌入,PCM是从AIF中获得额外的情感信息,以补偿因解藕说话人音色而导致的情感嵌入中的情感信息损失。为了有效地从AIF中提取全局韵律信息,还引入了一种由全局上下文模块global context(GC) (如Figure 2所示) 辅助的韵律补偿编码器。实验表明,该方法能够有效地缓解解耦后的情感嵌入中情感表现力受损的影响,在提升迁移情感表现力的同时保持目标说话人的音色。

语音合成示例:

出门问问论文入选全球语音技术顶会INTERSPEECH 2022 - 天天要闻

行业应用:打造业内领先的AI配音神器“魔音工坊”

近年来,出门问问在语音技术上的积累日渐成熟,并逐渐打磨一款面向消费者的AI配音产品——“魔音工坊”。该产品基于出门问问自研语音合成系统MeetVoice,发音精准,韵律流畅,现已成为深受短视频创作者们喜爱的顶级配音神器。

魔音工坊拥有丰富的配音编辑功能,在类似word“编辑器”界面,可轻松实现停顿调节、多音字、多发音人、局部变速等全方位的编辑,另有行业独创的重读、拖音等调音功能,让AI配音进一步媲美真人。

但如何应用魔音工坊的海量数据,让不同风格、不同情感的说话人互相结合,使之拥有更多情感丰富、风格多样的发音人,如何让发音人的情感更生动充沛,是魔音工坊一直追求的极致产品体验。

当前语音合成系统对风格/情感匹配的高质量音库有较强的依赖性,该项技术可以通过风格/情感迁移,实现“单人千音”的效果。该项技术的落地将大大提升风格化情感化语音合成系统的构建效率,降低系统构建的成本。

为了实现“单人千音”的效果,魔音工坊也研发实现了“声音转换”,即把A的说话风格(节奏和韵律等)迁移到B上。转换后的声音,会有B的音色,并拥有A的节奏和韵律等信息。

出门问问论文入选全球语音技术顶会INTERSPEECH 2022 - 天天要闻

(魔音工坊产品界面)

“魔音工坊”的“声音转换”可实现:

1、AI合成效果不佳之处,比如破音、发音不清晰/不饱满等,可以使用这个功能,让你的AI主播,学习其他AI主播的播报效果,或学习你的朗读效果;

2、某个地方需要重读,但是AI却轻描淡写,这时候可以尝试使用声音转换功能,实现“知轻重”的效果;

3、某个地方想要拖音,但是AI读的比较短平快,这时候使用声音转换,实现“懂缓急”的效果;

4、某句关键的台词,AI合成的效果不够出色,感觉AI配音的效果不佳(比如视频的开头黄金10秒,用户都希望配音能够出彩),这时可以尝试使用声音转换,让你的精彩演绎,赋能给魔音工坊的AI发音人,让声音更生动,富于情绪,更有情感。

此篇论文是我们的一部分探索,期待一下魔音工坊上线更多样性的发音人,也让每一个人都成为声音的导演,助力AI配音行业的蓬勃发展。

未来,出门问问将继续深耕语音、声学研发积累,并逐步落地在更多产品服务中。以更智能的技术创造更贴心的语音体验,富于情感,按“需”发音。让人和机器的交互更自然,让AI走进更多人的日常生活。

论文:《Cross-speaker Emotion Transfer Based on Prosody Compensation for End-to-End Speech Synthesis》

作者:李涛,王新升,谢启聪,王智超,江明奇,谢磊

科技分类资讯推荐

从聊天机器人到协作伙伴:AI智能体如何重塑企业工作 - 天天要闻

从聊天机器人到协作伙伴:AI智能体如何重塑企业工作

Scott White至今仍对人工智能从新奇技术转变为真正工作伙伴的速度感到惊叹。仅仅一年多前,这位Anthropic公司Claude AI产品负责人目睹了早期AI编程工具甚至无法完成一行代码的窘境。如今,尽管并非专业程序员,他却能亲自构建
小米 16 系列迎最新爆料,Pro 系列镜头模组大改,横向延伸全尺寸设计 - 天天要闻

小米 16 系列迎最新爆料,Pro 系列镜头模组大改,横向延伸全尺寸设计

近日,包括数码闲聊站在内等多个消息源,就下一代旗舰新机纷纷进行了最新爆料,其中小米 16 系列也在近日迎来了最新消息。根据最新爆料来看,小米 16 系列将会在以往的标准版、Pro 版、Ultra 的基础上新增一款 Pro Max 型号。但一一对应来看,新款的小米 16 Pro 即对标标准版 , 为大家熟悉的 6.3 英寸小尺寸旗舰机型。而 1...
魅族 22 系列手机本月到来,提供全新开模小尺寸旗舰版本 - 天天要闻

魅族 22 系列手机本月到来,提供全新开模小尺寸旗舰版本

伴随着时间来到 7 月,各大手机厂商的新机更新计划有所放缓,不过根据多方爆料来看,“小厂代表” 星纪魅族旗下的魅族 22 系列将会在本月与大家见面。目前魅族 22 系列仍然十分 “神秘”,欠缺主要的配置爆料与外观图片作为参考。但根据部分什么爆料者的消息来看,魅族 22 系列将会全新开模,并提供小尺寸旗舰版本可供选择...
vivo X300 Pro 更多细节曝光,大 R 角直面屏,新款大底主摄方案加持 - 天天要闻

vivo X300 Pro 更多细节曝光,大 R 角直面屏,新款大底主摄方案加持

今天数码博主数码闲聊站在与网友互动中,透露了一款搭载联发科天玑 9500 的 “大杯” 工程机的最新进展。参考爆料内容与评论区互动来看,预计为 vivo X300 Pro。除搭载联发科天玑 9500 外,据悉该机一大变化之处在于屏幕部分,根据最新消息来看将会搭载一块大 R 角直屏,不再采用曲面屏或微曲面屏设计。而这也将成为下一代...
数据驱动,柔性智能建造平台助力高效管理 - 天天要闻

数据驱动,柔性智能建造平台助力高效管理

长沙晚报掌上长沙7月1日讯(全媒体记者 刘嘉)6月30日,由长沙市智能建造产业链推进办公室与中建五局三公司联合承办的“创新驱动 智建未来”科技活动举行。该活动不仅展示了长沙在智能建造领域的创新成果,也为行业高质量发展提供了可复制的实践经验。
以前不敢想,机械革命搭配出4959元的RTX5050本,还有2.5K屏 - 天天要闻

以前不敢想,机械革命搭配出4959元的RTX5050本,还有2.5K屏

最近RTX5050本开始大面积登场,很多消费者也想知道,厂商到底能搭配出什么样配置?结果机械革命没有让大家失望,搭配出一个6199元的新品,补贴后价格4959元,再一次刷新新显卡笔记本的价格新低。同时,其配置还不是很潦草,还是很平衡的,让我们来看看。这款本配置了R9 7845HX处理器,12核心,24线程,台积电5nm工艺,Zen4...
中国移动三大核心布局 助力南亚东南亚数字经济新发展 - 天天要闻

中国移动三大核心布局 助力南亚东南亚数字经济新发展

【来源:云南网】6月30日,由云南省人民政府和云南省工业和信息化厅联合举办的面向南亚东南亚数字合作推介会在北京举行,中国移动副总经理陈怀达出席,中国移动数智化部副总经理陶涛发表主题为《建设跨境数据交易高速公路,服务数字信息大通道建设》的演讲