DeepSeek重磅披露:理論成本利潤率545%,每天GPU成本8.7萬美元

2025年03月01日18:52:09 科技 1477

每經編輯:張錦河

3月1日,DeepSeek在知乎上發表題為《DeepSeek-V3/R1 推理系統概覽》的文章,全面揭曉V3/R1 推理系統背後的關鍵秘密。

DeepSeek重磅披露:理論成本利潤率545%,每天GPU成本8.7萬美元 - 天天要聞

據文章介紹,DeepSeek-V3/R1推理系統的優化目標是更大的吞吐、更低的延遲。為了實現這兩個目標,DeepSeek使用了大規模跨節點專家並行(Expert Parallelism / EP)的方法,並通過一系列技術策略,最大程度地優化了大模型推理系統,實現了驚人的性能和效率。

具體而言,在更大的吞吐的方面,大規模跨節點專家並行能夠使得batch size(批尺寸)大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。

batch size在深度學習中是一個非常重要的超參數,指模型在訓練過程中每次使用的數據量大小。它決定了每次模型更新時使用的訓練樣本數量,調整batch size可以影響模型的訓練速度、內存消耗以及模型權重的更新方式。

在更低的延遲方面,大規模跨節點專家並行使得專家分散在不同的GPU上,每個GPU只需要計算很少的專家(因此更少的訪存需求),從而降低延遲。

但是,由於大規模跨節點專家並行會大幅增加系統的複雜性,帶來了跨節點通信、多節點數據並行、負載均衡等挑戰,因此DeepSeek在文章中也重點論述了使用大規模跨節點專家並行增大batch size的同時,如何隱藏傳輸的耗時,如何進行負載均衡。

具體來看,DeepSeek團隊主要通過規模化跨節點專家並行、雙批次重疊策略、最優負載均衡等方式,最大化資源利用率,保證高性能和穩定性。

值得注意的是,文章還披露了DeepSeek的理論成本和利潤率等關鍵信息。據介紹,DeepSeek V3 和R1的所有服務均使用英偉達的H800 GPU,由於白天的服務負荷高,晚上的服務負荷低,DeepSeek實現了一套機制,在白天負荷高的時候,用所有節點部署推理服務。晚上負荷低的時候,減少推理節點,以用來做研究和訓練。

通過時間上的成本控制,DeepSeek表示DeepSeek V3和R1推理服務佔用節點總和,峰值佔用為278個節點,平均佔用226.75個節點(每個節點為8個H800 GPU)。假定GPU租賃成本為2美元/小時,總成本為87072美元/天;如果所有tokens全部按照DeepSeek R1的定價計算,理論上一天的總收入為562027美元/天,成本利潤率為545%。

DeepSeek重磅披露:理論成本利潤率545%,每天GPU成本8.7萬美元 - 天天要聞

不過,DeepSeek也強調,實際上的收入或許並沒有那麼多,因為V3的定價相較於R1要更低,另外夜間還會有折扣。記者注意到,2月26日,DeepSeek在其API開放平台發布錯峰優惠活動通知。根據通知,北京時間每日00:30-08:30為錯峰時段,API調用價格大幅下調,其中DeepSeek-V3降至原價的50%,DeepSeek-R1降至25%。DeepSeek鼓勵用戶在該時段調用,享受更經濟更流暢的服務體驗。

上周五(2月21日),DeepSeek宣布連續五天開源五大軟件庫。2月25日DeepSeek選擇了先在GitHub上線,然後再在官推發布上新通知。該公司25日宣布將DeepEP向公眾開放。在宣布後的約20分鐘內,DeepEP已在GitHub、微軟(MSFT.US)等平台上獲得超過1000個Star收藏。

DeepSeek重磅披露:理論成本利潤率545%,每天GPU成本8.7萬美元 - 天天要聞

據悉,DeepEP是MoE模型訓練和推理的ExpertParallelism通信基礎,可實現高效優化的全到全通信,以支持包括FP8在內的低精度計算,適用於現代高性能計算。DeepEP還針對從NVLink到RDMA的非對稱帶寬轉發場景進行了深度優化,不僅提供高吞吐量,還支持流式多處理器數量控制,從而在訓練和推理任務中實現高吞吐量性能。

每日經濟新聞綜合自公開信息

免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。

每日經濟新聞

科技分類資訊推薦

無線信號增強秘籍,橋接和中繼模式哪個更強? - 天天要聞

無線信號增強秘籍,橋接和中繼模式哪個更強?

【ZOL中關村在線原創技術解析】隨着無線通信與計算機技術飛速發展,人們愈發渴望隨時隨地享受穩定的數據通信服務。無線路由器作為無線網絡核心設備,作用關鍵。但當其信號覆蓋不足,如穿過兩堵牆後信號微弱時,可通過無線橋接或中繼模式連接兩個無線路由器,擴展網絡、增強信號。中繼模式和橋接模式雖都能擴展網絡覆蓋,但...
流暢更耐用 魅族Note 16將預裝Flyme 12 - 天天要聞

流暢更耐用 魅族Note 16將預裝Flyme 12

魅族官方透露,將於5月發布的魅族Note 16系列將出廠預裝Flyme 12新系統,這也是Flyme系統大版本首次在非旗艦機型上首發。魅族Note 16搭載紫光展銳T765處理器,配備6.78英寸LCD屏,分辨率達2460*1080。後置採用八邊形相機模組,由5000萬像素主攝和200萬像素鏡頭組成。續航方面,內置6600mAh大容量電池,支持40W有線充電
跨境電商迎“成本地震”,行業洗牌加速 - 天天要聞

跨境電商迎“成本地震”,行業洗牌加速

【環球網財經綜合報道】近日,美國正式終止了對中國價值不超過800美元的小額包裹免徵關稅的政策,這一變化引發了中國跨境電商行業的連鎖反應。多家物流公司隨即調整策略,物流費用普遍上漲,並增加了高額預收稅金。(圖片來源:東方IC)美國的800美元小額免稅政策(De Minimis)自2016年實施以來,極大地推動了全球跨境電商...
音樂節超時粉絲吵上熱搜!羅雲熙周深發布聯合說明 - 天天要聞

音樂節超時粉絲吵上熱搜!羅雲熙周深發布聯合說明

5月4日,太湖灣音樂節組委會“關於5月1日太湖灣音樂節的相關討論”,聯合羅雲熙工作室、周深工作室作出如下說明:在演出過程中,現場因節奏調整產生變化,相關團隊均已積極協作,確保了整體流程順利完成。對於由此引發的相關關注,我們充分理解大家的關心
國外一公司推出“空中自行車”:可垂直起飛、極速200公里/時 - 天天要聞

國外一公司推出“空中自行車”:可垂直起飛、極速200公里/時

快科技5月5日消息,近日,國外一家名為Volonaut的新成立公司推出了一款 “空中自行車”,這是一款具有創新性和顛覆性的飛行載具。其由Jetson One(註:一款飛行器)創造者托馬斯・帕坦(Tomasz Patan)在波蘭研發,其設計靈感源自科幻電影,尤其是《星球大戰》中的飛行摩托。外觀上沒有傳統飛行器的冗餘結構,僅見容納推進...
全球首款雙形態人形機器人正式發布! - 天天要聞

全球首款雙形態人形機器人正式發布!

前言首次定義具身人形機器人商用範式。近日消息,全球首款雙形態人形機器人——數字華夏IP系列開山之作星行俠P01正式發布。顏值高、智商高、易使用首次定義具身人形機器人商用範式據悉,數字華夏推出IP系列的初衷,是打造屬於這個時代的「商用機器人」。“外形潮流時尚、智商情商兼具、使用維護極簡,首次定義具身人形機...
三星One UI 8測試版或下月推出 給後續修復留出時間 - 天天要聞

三星One UI 8測試版或下月推出 給後續修復留出時間

【CNMO科技消息】三星已經開始內部測試全新的One UI 8系統,同時也在包括Galaxy Z Flip6在內的多款設備上進行適配測試。按照目前的進度來看,這次更新的到來時間可能比很多人預想得更早,有可能會在今年7月或8月之前就正式推出。 和以往一樣,三星應該會先上線One UI 8的測試版計劃,給部分用戶提前嘗鮮的機會。根據最新消...
蘋果引入Anthropic開發的Claude AI系統 欲放棄自研? - 天天要聞

蘋果引入Anthropic開發的Claude AI系統 欲放棄自研?

【CNMO科技消息】蘋果最近開始引入Anthropic公司開發的Claude AI系統,用於協助其工程師更高效地編寫代碼。 長期以來,蘋果一直堅持自主研發核心技術,很少依賴外部力量。但這一次,它選擇與Anthropic合作,將後者的Claude Sonnet模型集成到自家開發工具Xcode的升級版本中。據彭博社報道,這項合作已經開始在內部落地,主要...
6 大升級!Apple Watch SE 3 入門款到底有多能打? - 天天要聞

6 大升級!Apple Watch SE 3 入門款到底有多能打?

文 | 路邊同學還有 4 個月,蘋果將推出新一代入門級智能手錶 —— Apple Watch SE 3。這款原計劃在 2024 年發布的機型,因市場節奏調整延後至今,卻也讓外界對其升級細節有了更充分的爆料空間。