“AI语音之王”科大讯飞声音复刻技术大升级,成品人机难辨!

2025年06月26日23:00:20 科技 1177

“AI语音之王”科大讯飞声音复刻技术大升级,成品人机难辨! - 天天要闻

智东西

作者 | 程茜

编辑 | 漠影

让《长安的荔枝》男主角李善德亲自推荐自己的电视剧是什么体验?

“AI语音之王”科大讯飞声音复刻技术大升级,成品人机难辨! - 天天要闻

这段让人难辨真假的音频并非真正出自李善德之口,其应用的正是科大讯飞近期升级的声音复刻技术,李善德痛斥右相的段落中,声调拔高,语速加快,声音复刻技术呈现的李善德推荐《长安的荔枝》音频中,不仅将声线高度契合,而且把语音中包含的情绪也复刻得非常到位。值得注意的是,这段ai“李善德”的学习素材仅需不到10s。

去年,讯飞星火app的小星畅聊里就上线了一句话声音复刻功能,如今,讯飞星火新版声音复刻功能也已更新,人人都可拥有同声线的数字分身。同时,新一代的声音复刻能力也已正式上线讯飞开放平台,开发者可通过api进行接入和调用。

在app中创建声音,用户只需要选择性别,朗读一句话,就可以快速生成自定义声音,并与之进行对话。

“AI语音之王”科大讯飞声音复刻技术大升级,成品人机难辨! - 天天要闻

作为ai语音王者,科大讯飞在语音技术领域的深耕,以及在智能驾驶、教育等人机交互场景的广泛应用,已经使其成为全球语音领域的头部企业,其语音相关项目不仅两次获得国内知识产权领域的最高奖项中国专利金奖,同时还斩获国家科学技术进步奖一等奖。

在这一背景下,科大讯飞声音复刻技术的背后到底有哪些黑科技?语音技术将带给科技行业什么样的想象空间?智东西将从讯飞星火app的相关功能体验出发,找到这些问题的答案。

一、秒级自定义ai发音人,蜡笔小新、哪吒跨时空交流

如今更贴近人类日常交流的语音交互模式,几乎已经成为聊天机器人的必备功能。

讯飞星火app的语音通话功能中,不仅支持其内置的14位发音人与用户流畅对话,还可以通过一句话创建属于自己的发音人。

可以看到,app中已经预设了14个发音人,包含普通话、英文、方言、日语、俄语等多种语音包。

“AI语音之王”科大讯飞声音复刻技术大升级,成品人机难辨! - 天天要闻

想要自己创建发音人的过程也极为简单,用户只需选择性别,然后根据提示朗读屏幕上的一句话,等待几秒钟就能创建成功,同时为了让其更符合用户的使用习惯,还能添加相应人设。

下面有几个案例来感受一下一句话声音复刻技术的惊艳效果,用这项技术对用户熟知的影视剧角色、动漫人物声音进行了复刻,通过对比,我们可以更为直观地感受到其声音合成的相似度与准确度。

科大讯飞的声音复刻技术还让两大经典影视剧中的甄嬛和佟掌柜来了一场世纪交流,当ai用《甄嬛传》中甄嬛的复刻声线说出《武林外传》佟掌柜的经典台词时,仅需不到6s的音频即可瞬间让《武林外传》资深观众来了一波穿越。

其合成音频中,不仅复刻了甄嬛的声线,语气也十分平缓,诉说过程衔接自然流畅。

第三是动漫形象,基于科大讯飞的声音复刻技术,哪吒和蜡笔小新实现了跨时空交流。

通过不到7s的音频素材进行学习,就可以复刻蜡笔小新的声音,并让其准确说出哪吒的经典打油诗。

同时,哪吒也可以开口说蜡笔小新的经典台词,与其宠物小白隔空交流,复刻的音频中,既保留了哪吒的独特声线,还有其特殊的尾音上扬特征。

这些音频的实现效果,有的仅需要原角色不到5s的音频就能实现,且可以看出上面几段音频都没有出现明显的卡顿,还复刻了声调上扬、语速、说话节奏等细微的特征。

二、从音色到停顿、发音流畅自然,打造三阶段层次化语音建模框架

对于这些深入人心的影视角色,用户在一些更为细节的发音特征上或许感知并不是很强烈,但在讯飞星火app自定义创建声音的场景中,用户对发音人复刻效果的要求更高,这对声音复刻功能提出了更大挑战。

因此想要实现“一句话声音复刻”的背后,需要面临三大关键难题:如何从一句话中精准提炼用户发音的多种特性、如何保证声音相似、如何准确还原用户的停顿、发声、重音习惯以及口癖等。

在此基础上,科大讯飞为个性化的语音合成打造了“三阶段层次化语音建模框架”,试图将用户输入一句话音频的各种声音信息都捕捉到位。

具体来看,该框架具体分为三个阶段,通过星火底座大模型精确捕捉发音规律和韵律特征、在音色恢复阶段解耦并重构声学特征、通过声码器恢复高保真波形。

传统声音复刻技术往往需要数小时甚至数十小时语音样本进行训练,而基于星火语音大模型底座能力,其可以快速从短时间音频中提取语音中的基础元素。

其第二个阶段的本质正是通过将语音的音色属性从复杂的混合信号中剥离出来,并按照目标需求重新组合关键特征,以提高音色还原的准确性。

第三个阶段中的高保真波形恢复,能够尽可能还原原始音频的时域细节、频谱特征和动态范围。

据了解,这套语音建模框架突破语义表征,采用mel vq-ae模型(mel频谱向量量化自编码器)结合语音自监督预训练编码器,并引入音色最小互信息约束,能解耦出音色无关的离散语义token,实现了发音内容与音色特征的可控分离,并可以提升语义大模型的建模稳定性。

同时,让合成声音更为自然还有一大关键是,发音需流畅且音色一致,因此在音色解耦表征的基础上,科大讯飞进一步通过音色增强以及强化学习,来实现声音复刻的人机难辨。

其中,音色增强是指在声学模型中,研究人员融合全局声纹嵌入与局部帧级音色编码,提取细粒度音色特征,并构建声纹空间语义一致性损失函数,提升音色恢复的相似度;主要是通过语音鲁棒性评价模型和人工标注构建偏好数据集,采用基于dpo的强化学习策略提升合成语音的稳定性和自然流畅度。

在这些综合作用下,科大讯飞的语音合成技术已经可以做到,只需一句话录音就能完整捕捉用户喉腔共鸣、口音特点、气息流转等发音特征,并精准还原用户的停顿习惯、情感起伏和呼吸节奏。

基于此才能达到真人难以区分的复刻效果,为车载语音交互系统、个性化智能客服、智能体交互的应用场景打开更大想象空间。

三、多次拿下业界国家级大奖,横纵布局加速语音技术落地

一直以来,语音都是人类最自然的交流方式,因此业界一直围绕着模拟人类对话过程、使机器能够理解并回应人类语音指令进行探索。

作为国内ai领域国家队,科大讯飞早在2011年就肩负起语音及语言处理国家工程实验室(后升级为工程研究中心)的重任,并成为全球语音技术领域的头部玩家。

时至今日,科大讯飞在语音领域已经硕果累累,最直观的数据就是,本月,科大讯飞凭借“基于时延估计的回声消除方法及装置”专利入选第二十五届中国专利金奖项目名单,这也是其第二次获得这一国内知识产权领域的最高奖项,同时也是安徽省唯一一家两次获得中国专利金奖的单位。

此外,去年其“多语种智能语音关键技术及产业化”项目还斩获国家科学技术进步奖一等奖。

“AI语音之王”科大讯飞声音复刻技术大升级,成品人机难辨! - 天天要闻

在技术深耕之下,科大讯飞不仅实现了在语音识别、语音合成领域的准确度、识别语种、相似度等各项性能的纵向提升,还横向拓宽了语音技术的应用场景,从识别、翻译到合成,以及智能驾驶、智能客服、教育等诸多场景。

去年9月,科大讯飞在语音识别领域的赛事chime-8夺冠,并实现五连冠。语音识别首次实现全国地级市方言全覆盖,包括288个地市202种方言。

此前科大讯飞正式发布的星火语音大模型,实现74个语种、方言免切换对话;且根据真实业务构建的语音输入场景测试集,星火语音大模型37个语种语音识别效果领先openai发布的开源语音识别模型whisper-v3.5。

同时其能在强干扰场景下实现精准语音识别,在两人叠混场景、三人叠混场景中和-5db高噪音场景中的语音转写效果远超whisper和gemini。

在此基础上,星火语音大模型已经深度运用在各种人机交互场景中,如智能座舱、教育等诸多领域。

可见语音技术的攻关非一日之功,在技术深耕与场景应用上的双重发力,使得科大讯飞的语音技术正在全球扮演着愈发重要的角色。

结语:更自然流畅的语音交互,正扩宽ai应用场景

语音交互使人们可以通过说话来操作设备和获取信息,无需手动输入或操作复杂的界面。如今随着技术的发展,语音识别和合成技术为聊天机器人等ai工具赋予了自然交互能力,使其与用户的交流更加流畅。

与此同时,企业也在不断探索新的算法和模型,在突破语音识别、合成准确率的同时,拓宽其应用场景,使得语音与自然语言处理、计算机视觉等技术相互融合,以推动ai的发展,而科大讯飞在技术融合与场景落地方面的积累,已展现出显著的竞争力。

科技分类资讯推荐

2025 ECDC萤石云开发者大会召开 面向碎片化AI场景全面升级 - 天天要闻

2025 ECDC萤石云开发者大会召开 面向碎片化AI场景全面升级

6 月 26 日,以“蓝海潮生 全域进化”为主题的 2025 ECDC 萤石云开发者大会在杭州举办。作为全球领先的视觉物联网云平台,萤石在过去一年以“AI +视觉能力”为核心驱动力,推出萤石蓝海大模型与新一代 AI 核心架构 EZVIZ HomePlay OS,同步完成萤石开放平台升级,在物联网领域掀起了一场深刻的 AI 变革。 而在今年的大会上...
2025惠普商用AI战略暨AI PC新品发布, 智领办公新未来 - 天天要闻

2025惠普商用AI战略暨AI PC新品发布, 智领办公新未来

2025年6月26日, “Making AI Real” 2025惠普商用AI战略暨AI PC新品发布会在北京盛大举行。作为未来办公创新的践行者,惠普以客户需求为核心驱动力,精准把握AI技术在企业端加速普及的趋势,重磅发布包括全新EliteBook 系列高端AI商务本、战系列AI商务本、多款 “开箱即用” 的Z系列AI一体机,以及全面升级的Poly智能音视.
财经老王丨机器人家政要来了吗? - 天天要闻

财经老王丨机器人家政要来了吗?

当传统家电遇见人形机器人,我们的生活会变成什么样?在第十六届夏季达沃斯论坛上,老王见到了周云杰和王兴兴,他们剧透说,这些AI生成的场景,也许离我们不远了。周云杰告诉老王,海尔正在用AI给家电赋能,让智能家电升级为人形机器人。海尔集团董事长 周云杰:比如炒菜机器人、陪伴机器人可以是人形的,用AI的方式对家庭...
雷军最新回应“小米靠营销成功”:我们把能力建设放首位!他还说:“要改变心态,把自己当作重点车企看待”!小米美股ADR涨超11% - 天天要闻

雷军最新回应“小米靠营销成功”:我们把能力建设放首位!他还说:“要改变心态,把自己当作重点车企看待”!小米美股ADR涨超11%

6月26日晚,小米正式发布小米YU7。售价25.35万元起,Pro版27.99万元,Max版32.99万元。全系超长续航,标准版835km。 上市发布会后,小米汽车宣布,3分钟大定突破20万台,1小时大定突破289000台。 “拿到这么多订单还是挺激动的,远超我的想象。”小米集团董事长雷军在接受《每日经济新闻》采访时表示,“我觉得SUV的竞争非...
雷军:流量时代要谨言慎行,不再是新手要高标准严要求 - 天天要闻

雷军:流量时代要谨言慎行,不再是新手要高标准严要求

新京报贝壳财经讯(记者陈维城)6月26日,小米首款SUV车型小米YU7发布。对于今年以来的舆论风波话题,小米集团创始人、董事长兼CEO雷军表示,流量时代小米要谨言慎行,就是每一句话要说得非常准确,要进一步提高准确度,一定要把自己的事情做好,因为任何瑕疵都可能被放大,这是我们最需要做的。同时还要坚定不移地走自己的...
雷军谈“反内卷”:坚决反价格战,往高端挺进 - 天天要闻

雷军谈“反内卷”:坚决反价格战,往高端挺进

新京报贝壳财经讯(记者陈维城)6月26日,小米首款SUV车型小米YU7发布。对于汽车行业反内卷话题,小米集团创始人、董事长兼CEO雷军表示,“积极响应主管部门的号召,坚决执行反内卷。比如对供应商60天内付款,小米的表现有口皆碑。在竞争形势上,我们也坚决反价格战,往高端挺进,我们用更高的标准来要求自己,坚决落实主管...
供不应求!华为Pura80 Ultra开售全面售罄 9999元起 - 天天要闻

供不应求!华为Pura80 Ultra开售全面售罄 9999元起

站长之家(ChinaZ.com) 6月26日 消息:6月26日,华为新一代影像旗舰Pura80Ultra正式发售,一经开售便在市场上引发强烈反响,线上线下渠道均迅速售罄,出现“一机难求”的局面。华为商城信息显示,Pura80Ultra下一轮销售时间为6月27日10:08。此次发售提供鎏光金和鎏光黑两种配色,有16GB512GB和16GB1TB两种配置可供选择
小米 MIX Flip 2 小折叠手机发布:售价 5999 元起 - 天天要闻

小米 MIX Flip 2 小折叠手机发布:售价 5999 元起

站长之家(ChinaZ.com)6月26日 消息:今日晚间,小米人车家全生态发布会盛大举行,小米 MIX Flip2小折叠手机正式亮相,其口号“满分小折”彰显了小米对这款产品的自信。小米 MIX Flip2小折叠手机定价5999元起,在配置上亮点颇多。它搭载了骁龙8至尊版处理器,性能强劲,为手机的流畅运行提供了坚实保障。同时,该机在小折叠...
华为Pura80 Ultra今日首销 影像实力强劲售价9999元起 - 天天要闻

华为Pura80 Ultra今日首销 影像实力强劲售价9999元起

站长之家(ChinaZ.com)6月26日 消息:今日上午10:08,华为旗下被视为最强拍照手机的Pura80Ultra正式开启销售。此次推出的华为Pura80Ultra提供16GB+512GB、16GB+1TB两种存储版本,售价分别为9999元和10999元。华为Pura80Ultra在屏幕与材质方面表现出色,配备了一块6.8英寸的屏幕,并采用第二代玄武钢
华为Pocket 2优享版今日首销 5499元起支持国补 - 天天要闻

华为Pocket 2优享版今日首销 5499元起支持国补

站长之家(ChinaZ.com) 6月26日 消息:据华为官方消息,华为Pocket2优享版于今日上午10:08正式开售。此次开售的华为Pocket2优享版提供两种存储版本,12GB+512GB版本售价5999元,12GB+256GB版本售价5499元。依据手机国补政策,个人消费者购买单件销售价格不超过6000元的手机、平板、智能手表(手环)这3类数码产品,