2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都开口

2025年03月07日16:03:05 科技 1269

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

起猛了,DeepSeek开口说话了

而且是超低延迟实时秒回,还可以随时打断的那种。

DeepSeek以及其他任意大模型接入这样的高质量对话引擎,全程只需要两行代码

2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都开口 - 天天要闻

开发一款语音交互的AI应用,门槛低到如此令人发指了吗?

这不算完,价格方面还有惊喜:每分钟0.098元,不到一毛钱,单次还赠送1000分钟。

这就是来自声网的对话式AI引擎了。

2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都开口 - 天天要闻

声网AI RTE产品线负责人姚光华在3月6日对话式AI引擎发布会上提到,“经过一段时间与客户的打磨及实际使用场景调研,我们统计出,用户与AI 每产生1次对话中,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本仅需3分钱。如果每月对话次数15次,那么月成本不到5毛钱,年成本也只需5元。”

声网在价格上做到了极致,按用量付费的模式更是不设上限,让多模态AI交互应用服务百万级用户规模成为可能。

这样便宜又好用,声网是怎么做到的呢?

揭秘AI对话流畅体验关键

AI对话要想体验丝滑,低延迟是必不可少的。

这里有一个关键数据:延迟是否低于1.7秒

如果低于这个值,人们会觉得与AI交流很自然;当延迟达到2秒-3秒,使用体验上感觉到有些卡顿,反应稍显迟缓。

而声网对话式AI引擎,经过在中、美、欧、东南亚主要城市实测,能够做到响应延迟中位数650毫秒。这样的反应速度就能做到与人类对话体验相仿,消除用户等待的焦虑感。

响应延迟只是保障流畅对话体验的基础,进入实际应用后,还有更多关键技术。

真实人类对话的一个重要特征是可以自然地打断对方,而大多数AI对话系统在这方面表现不佳。声网对话式AI引擎支持用户随时打断AI的回应,打断响应低至340ms,真正模拟人与人之间的自然对话节奏。

嘈杂环境下,普通语音识别往往难以准确捕捉用户意图。声网的对话式AI引擎能屏蔽95%的环境人声和噪声干扰,精准识别对话人声,即使在人声嘈杂的公共场所,也能保持对话质量。

以下视频来源于

声网

在地铁、地下车库等网络信号不佳的环境下,普通语音互动应用往往卡顿或断连。

声网之所以能解决这个问题,是因为声网的软件定义实时网SD-RTN在全球建设了200多个数据中心,建立连接时选址也都是选在离终端用户最近的地方。

再结合独家智能路由+抗弱网算法,可以做到各种复杂网络环境下的跨区域丝滑互动,在面临80%丢包的情况下人与Agent也能稳定交流,即使断网3-5s依旧可以流畅对话。

最后,该引擎不局限于特定大模型,能实现DeepSeek、ChatGPT等全模型适配,同时其音视频SDK支持30000+终端机型,彻底解决多设备兼容性的后顾之忧。

15分钟任何应用加装AI语音交互

对于开发者而言,声网对话式AI引擎最大的魅力在于其极简的开发接入流程和强大的灵活性:

极简接入:

通过声网Console后台,开发者可以自行开通服务、在Playground中调参测试并生成代码,仅需2行核心代码,15分钟即可完成从零到部署一个基于大模型的对话式AI Agent的全过程。

2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都开口 - 天天要闻

这一”傻瓜式”接入方式极大降低了技术门槛,让更多开发者能够快速进入AI语音交互领域。

灵活切换:

开发者可以根据应用场景需求,自由选择和切换底层大模型,而无需改变前端交互逻辑。支持全球几乎所有大模型厂商,只要和OpenAI接口协议兼容的模型厂商,自3月6日起,全部原生支持。

同时也支持全球主流语音合成供应商任意切换,支持开发者通过语音合成供应商定制的自定义音色接入。

2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都开口 - 天天要闻

比如在应用中不同的功能接入不同的模型,都只需简单配置即可完成切换,真正实现一次开发,全模型适配。

广泛兼容:

一方面是支持第三方云端大模型服务、企业私有化模型及本地化部署的开源模型无缝接入。

另一方面则是对硬件的兼容。现实场景中不同的设备可能对于语音处理效果产生影响,性能相对差一些的设备可能会产生更高的延时,需要音视频SDK做到海量设备的兼容性,提供统一的低延时传输。声网的RTC SDK支持30+平台开发框架,30000+终端机型适配,即使是中低端机型也适用。

语音交互即服务模式诞生

声网对话式AI引擎不仅为开发者提供了一个优质选择,更意味着一种新模式的诞生:语音交互即服务。

让RTC(实时音视频)技术与大模型技术解耦,每个部分都可以交给专业的团队去做,大模型厂商无需再花时间精力自建语音交互体系。

在这个趋势之中,声网通过统一API接口广泛兼容模型,站稳了“AI语音交互中间件”这个的新生态位

作为生成式AI行业一种全新的基础设施供应商,声网首席运营官刘斌也在去年底参加了量子位举办的MEET2025智能未来大会

在演讲中,刘斌曾强调:

任何涉及大模型多模态实时交互的应用,无论是语音还是视频,只要存在多模态交互,这类Agent应用的落地都离不开RTC技术的支持。

几个月后,声网对话式AI引擎正在“让所有AI都能开口说话”,把RTC技术落地到各类AI应用,进一步推进整个生成式AI行业变革。

科技分类资讯推荐

雷军感谢北京这片沃土,透露未来五年将投入2000亿元做研发 - 天天要闻

雷军感谢北京这片沃土,透露未来五年将投入2000亿元做研发

6月16日,“活力中国调研行”北京市主题采访活动首站来到北京小米汽车工厂。该工厂于2024年3月揭幕,坐落于北京经济技术开发区,占地约72万平方米,建有6大车间、29个研发实验室,投资超50亿元。今年是小米创业15周年。在当天的调研活动现场,小米集团创始人、董事长兼CEO雷军表示,“一直以来,小米都是一家土生土长的北京...
余承东揭秘华为鸿蒙系统命名由来 - 天天要闻

余承东揭秘华为鸿蒙系统命名由来

6月16日,华为常务董事、终端BG董事长余承东透露了华为鸿蒙系统名字的由来。余承东介绍,华为早在10年前就开始研发操作系统等根技术,当时该系统尚未命名。2019年,华为为操作系统的内核申请了“鸿蒙”商标。由于网友误将“鸿蒙”内核商标当作操作系统的名字,华为便顺势将操作系统命名为“鸿蒙”,寓意“万物初开的元气”...
广州新华携手华为、讯方成立人工智能产业学院,今年拟招生150人 - 天天要闻

广州新华携手华为、讯方成立人工智能产业学院,今年拟招生150人

近日,广州新华学院与华为技术有限公司签署全面框架合作协议,联合深圳市讯方技术股份有限公司共建“人工智能产业学院”,该学院今年开始招生,拟招150人。此次签约揭牌仪式在东莞校区举行,校企三方将通过整合教育资源、技术优势与行业经验,共同构建“产学研用”一体化人才培养体系,助力人工智能技术创新与教育数字化转...
被冷落的高端旗舰!骁龙8至尊版+16G+512G+真全面屏,低至3499元 - 天天要闻

被冷落的高端旗舰!骁龙8至尊版+16G+512G+真全面屏,低至3499元

开头问大家一个问题,如果你的预算达到了5000元左右,你会选择哪个品牌的高端手机呢?相信大部分网友第一印象都是选择苹果或者是华为手机。之所以会出现这样的局面,主要是因为这两个品牌的产品已经给消费者留下了比较刻板的印象,一听到这两个品牌,不少
雷军:造车难度极高 - 天天要闻

雷军:造车难度极高

作者 |第一财经武子晔“小米汽车工厂目前每月能生产两三万辆车,工厂实现了高度自动化,绝大部分工序都由机器完成。”小米集团创始人雷军6月16日在“活力中国调研行”活动上表示。雷军认为,小米汽车首战告捷,在过去的14个月销售了25万辆汽车,智能制造能力是小米汽车成功的原因之一。他还表示,造车难度极高,小米汽车的...
华为Pura80Ultra和华为Pura70Ultra的区别是什么? - 天天要闻

华为Pura80Ultra和华为Pura70Ultra的区别是什么?

华为Pura系列一直凭借着出色的影像深受大家的喜爱,那么这次发布的Pura80Ultra和上代Pura70Ultra相比,又有什么区别呢?老规矩,先来了解双方的参数配置:一、屏幕方面华为P80 Ultra和P70 Ultra都是6.
高考毕业生的理想之选:七彩虹隐星 P16 Pro - 天天要闻

高考毕业生的理想之选:七彩虹隐星 P16 Pro

又到一年高考季,莘莘学子即将开启人生新篇。对于准大学生,尤其是即将步入大一的新生而言,购置一款合适的笔记本电脑是迎接大学生活的重要准备。恰逢 618 年中购物节与暑促活动,各类电子产品优惠多多,再加上国补政策助力,此时入手可谓占尽天时地利。