DeepSeek重磅披露:理论成本利润率545%,每天GPU成本8.7万美元

2025年03月01日18:52:09 科技 1477

每经编辑:张锦河

3月1日,DeepSeek在知乎上发表题为《DeepSeek-V3/R1 推理系统概览》的文章,全面揭晓V3/R1 推理系统背后的关键秘密。

DeepSeek重磅披露:理论成本利润率545%,每天GPU成本8.7万美元 - 天天要闻

据文章介绍,DeepSeek-V3/R1推理系统的优化目标是更大的吞吐、更低的延迟。为了实现这两个目标,DeepSeek使用了大规模跨节点专家并行(Expert Parallelism / EP)的方法,并通过一系列技术策略,最大程度地优化了大模型推理系统,实现了惊人的性能和效率。

具体而言,在更大的吞吐的方面,大规模跨节点专家并行能够使得batch size(批尺寸)大大增加,从而提高GPU矩阵乘法的效率,提高吞吐。

batch size在深度学习中是一个非常重要的超参数,指模型在训练过程中每次使用的数据量大小。它决定了每次模型更新时使用的训练样本数量,调整batch size可以影响模型的训练速度、内存消耗以及模型权重的更新方式。

在更低的延迟方面,大规模跨节点专家并行使得专家分散在不同的GPU上,每个GPU只需要计算很少的专家(因此更少的访存需求),从而降低延迟。

但是,由于大规模跨节点专家并行会大幅增加系统的复杂性,带来了跨节点通信、多节点数据并行、负载均衡等挑战,因此DeepSeek在文章中也重点论述了使用大规模跨节点专家并行增大batch size的同时,如何隐藏传输的耗时,如何进行负载均衡。

具体来看,DeepSeek团队主要通过规模化跨节点专家并行、双批次重叠策略、最优负载均衡等方式,最大化资源利用率,保证高性能和稳定性。

值得注意的是,文章还披露了DeepSeek的理论成本和利润率等关键信息。据介绍,DeepSeek V3 和R1的所有服务均使用英伟达的H800 GPU,由于白天的服务负荷高,晚上的服务负荷低,DeepSeek实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。

通过时间上的成本控制,DeepSeek表示DeepSeek V3和R1推理服务占用节点总和,峰值占用为278个节点,平均占用226.75个节点(每个节点为8个H800 GPU)。假定GPU租赁成本为2美元/小时,总成本为87072美元/天;如果所有tokens全部按照DeepSeek R1的定价计算,理论上一天的总收入为562027美元/天,成本利润率为545%。

DeepSeek重磅披露:理论成本利润率545%,每天GPU成本8.7万美元 - 天天要闻

不过,DeepSeek也强调,实际上的收入或许并没有那么多,因为V3的定价相较于R1要更低,另外夜间还会有折扣。记者注意到,2月26日,DeepSeek在其API开放平台发布错峰优惠活动通知。根据通知,北京时间每日00:30-08:30为错峰时段,API调用价格大幅下调,其中DeepSeek-V3降至原价的50%,DeepSeek-R1降至25%。DeepSeek鼓励用户在该时段调用,享受更经济更流畅的服务体验。

上周五(2月21日),DeepSeek宣布连续五天开源五大软件库。2月25日DeepSeek选择了先在GitHub上线,然后再在官推发布上新通知。该公司25日宣布将DeepEP向公众开放。在宣布后的约20分钟内,DeepEP已在GitHub、微软(MSFT.US)等平台上获得超过1000个Star收藏。

DeepSeek重磅披露:理论成本利润率545%,每天GPU成本8.7万美元 - 天天要闻

据悉,DeepEP是MoE模型训练和推理的ExpertParallelism通信基础,可实现高效优化的全到全通信,以支持包括FP8在内的低精度计算,适用于现代高性能计算。DeepEP还针对从NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供高吞吐量,还支持流式多处理器数量控制,从而在训练和推理任务中实现高吞吐量性能。

每日经济新闻综合自公开信息

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

每日经济新闻

科技分类资讯推荐

未上市即遭山寨!小米YU7“老头乐版”已上路 - 天天要闻

未上市即遭山寨!小米YU7“老头乐版”已上路

近日博主韩路偶遇一辆老头乐版小米YU7,从他曝光的视频可见,这台低速电动车堪称“像素级复刻”。车头轮廓与小米SU7如出一辙,流畅的弧线与标志性前脸造型被生硬照搬,只是冲压工艺的粗糙痕迹在阳光下无所遁形。最引人发笑的细节当属引擎盖上的“M七”标识,厂商生怕旁人看不出模仿对象,索性将小米logo倒置后稍作变形,堂...
荣耀王班回应友商“干翻荣耀”传言 - 天天要闻

荣耀王班回应友商“干翻荣耀”传言

来源:环球网 【环球网科技综合报道】6月9日消息,近日,荣耀公司销售与服务总裁王班在社交平台回应称,“400首销之际,我听说有友商内部发通知,要干死荣耀,不让荣耀翻身。我们是否翻身不取决于任何其他人,而是取决于我们是否做对事情。
古尔曼:苹果可能不会在 WWDC 2025上发布新硬件 - 天天要闻

古尔曼:苹果可能不会在 WWDC 2025上发布新硬件

来源:环球网 【环球网科技综合报道】6月9日消息,据外媒报道,苹果可能不会在WWDC主题演讲中推出新硬件,而是仅涉及软件。彭博社马克·古尔曼 (Mark Gurman) 撰文称,苹果没有准备在 WWDC 期间发布任何新硬件。
京东高薪挖人抢滩酒旅市场 - 天天要闻

京东高薪挖人抢滩酒旅市场

京东高薪挖人抢滩酒旅市场:战略意图、行业影响与未来挑战万亿级市场潜力中国在线旅游市场2023年规模超1.5万亿元,年增长率超15%(艾瑞咨询数据)。后疫情时代,本地游、周边游需求爆发,高端度假、主题旅游(如露营、研学)成为新增长点。
Meta有意向人工智能初创公司Scale AI投资超过100亿美元 双方已在洽谈 - 天天要闻

Meta有意向人工智能初创公司Scale AI投资超过100亿美元 双方已在洽谈

【TechWeb】6月9日消息,据外媒报道,在生成式人工智能的热潮中,OpenAI、Anthropic、xAI等厂商也受到了资本市场的热捧,相继获得了多笔高额的投资,也在持续进行新的融资,其中由马斯克在2023年7月12日创立的xAI,在去年5月份融资60亿美元、11月份融资50亿美元后,又在进行50亿美元的债务融资。而从外媒最新的报道来看,人...
iGame M15 Origo评测:颜值与性能并存 搭载长江存储PC41Q 表现超预期 - 天天要闻

iGame M15 Origo评测:颜值与性能并存 搭载长江存储PC41Q 表现超预期

【ZOL中关村在线原创评测】前不久,七彩虹发布了旗下首款iGame游戏笔记本产品,我们也第一时间拿到了iGame M15 Origo轻薄全能游戏本。其搭载酷睿Ultra 9 285H处理器,显卡为RTX 5070 Laotop,内存为32GB DDR5 6400MHz,硬盘则是长江存储的PC41Q。单纯从硬件上看,iGame M15 Origo的性能非常强劲
智越山海!东风猛士M817搭载全栈华为,开启豪华电动智野新赛道 - 天天要闻

智越山海!东风猛士M817搭载全栈华为,开启豪华电动智野新赛道

近日,东风汽车集团有限公司与华为技术有限公司在武汉正式签署全面深化战略合作协议,双方将充分发挥在产业资源与技术领域的互补优势,围绕汽车智能化、企业数字化和智能化升级、生态共建等领域开展全方位深度合作。同时,双方还将协同东风汽车旗下东风岚图、东风猛士等品牌,共同