DeepSeek重磅披露：理論成本利潤率545%，每天GPU成本8.7萬美元

2025年03月01日18:52:09 科技 1477

每經編輯：張錦河

3月1日，DeepSeek在知乎上發表題為《DeepSeek-V3/R1 推理系統概覽》的文章，全面揭曉V3/R1 推理系統背後的關鍵秘密。

DeepSeek重磅披露：理論成本利潤率545%，每天GPU成本8.7萬美元 - 天天要聞

據文章介紹，DeepSeek-V3/R1推理系統的優化目標是更大的吞吐、更低的延遲。為了實現這兩個目標，DeepSeek使用了大規模跨節點專家並行（Expert Parallelism / EP）的方法，並通過一系列技術策略，最大程度地優化了大模型推理系統，實現了驚人的性能和效率。

具體而言，在更大的吞吐的方面，大規模跨節點專家並行能夠使得batch size（批尺寸）大大增加，從而提高GPU矩陣乘法的效率，提高吞吐。

batch size在深度學習中是一個非常重要的超參數，指模型在訓練過程中每次使用的數據量大小。它決定了每次模型更新時使用的訓練樣本數量，調整batch size可以影響模型的訓練速度、內存消耗以及模型權重的更新方式。

在更低的延遲方面，大規模跨節點專家並行使得專家分散在不同的GPU上，每個GPU只需要計算很少的專家（因此更少的訪存需求），從而降低延遲。

但是，由於大規模跨節點專家並行會大幅增加系統的複雜性，帶來了跨節點通信、多節點數據並行、負載均衡等挑戰，因此DeepSeek在文章中也重點論述了使用大規模跨節點專家並行增大batch size的同時，如何隱藏傳輸的耗時，如何進行負載均衡。

具體來看，DeepSeek團隊主要通過規模化跨節點專家並行、雙批次重疊策略、最優負載均衡等方式，最大化資源利用率，保證高性能和穩定性。

值得注意的是，文章還披露了DeepSeek的理論成本和利潤率等關鍵信息。據介紹，DeepSeek V3 和R1的所有服務均使用英偉達的H800 GPU，由於白天的服務負荷高，晚上的服務負荷低，DeepSeek實現了一套機制，在白天負荷高的時候，用所有節點部署推理服務。晚上負荷低的時候，減少推理節點，以用來做研究和訓練。

通過時間上的成本控制，DeepSeek表示DeepSeek V3和R1推理服務佔用節點總和，峰值佔用為278個節點，平均佔用226.75個節點（每個節點為8個H800 GPU）。假定GPU租賃成本為2美元/小時，總成本為87072美元/天；如果所有tokens全部按照DeepSeek R1的定價計算，理論上一天的總收入為562027美元/天，成本利潤率為545%。

不過，DeepSeek也強調，實際上的收入或許並沒有那麼多，因為V3的定價相較於R1要更低，另外夜間還會有折扣。記者注意到，2月26日，DeepSeek在其API開放平台發佈錯峰優惠活動通知。根據通知，北京時間每日00:30-08:30為錯峰時段，API調用價格大幅下調，其中DeepSeek-V3降至原價的50%，DeepSeek-R1降至25%。DeepSeek鼓勵用戶在該時段調用，享受更經濟更流暢的服務體驗。

上周五（2月21日），DeepSeek宣布連續五天開源五大軟件庫。2月25日DeepSeek選擇了先在GitHub上線，然後再在官推發佈上新通知。該公司25日宣布將DeepEP向公眾開放。在宣布後的約20分鐘內，DeepEP已在GitHub、微軟（MSFT.US）等平台上獲得超過1000個Star收藏。

據悉，DeepEP是MoE模型訓練和推理的ExpertParallelism通信基礎，可實現高效優化的全到全通信，以支持包括FP8在內的低精度計算，適用於現代高性能計算。DeepEP還針對從NVLink到RDMA的非對稱帶寬轉發場景進行了深度優化，不僅提供高吞吐量，還支持流式多處理器數量控制，從而在訓練和推理任務中實現高吞吐量性能。

每日經濟新聞綜合自公開信息

免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前請核實。據此操作，風險自擔。

每日經濟新聞