一體機，阻礙DeepSeek性能的最大絆腳石！

2025年03月25日10:30:25 財經 4976

一體機是DeepSeek交付的最佳方式嗎？

恰恰相反，一體機是阻礙DeepSeek提升推理性能的最大絆腳石。

為啥？

只因DeepSeek這個模型有點特殊，它是個高稀疏度的MoE模型。

MoE這種混合專家模型，設計的初衷是通過「激活一堆專家中的少量專家」，來達到減少計算量、提升推理效率的目標。

舉個例子，MoE模型好比是一個超級大飯店的後廚，這個後廚里有幾百個大廚，每個大廚擅長做不同菜系川菜廚子、魯菜廚子、湘菜廚子…

這些廚子就相當於不同領域的專家。

其中有個人是廚師長，廚師長不負責炒菜，他清楚地知道每個廚師擅長做什麼菜。

這個廚師長就是MoE模型中的門控網絡。

每次顧客點菜的時候，廚師長（門控網絡）會根據顧客點菜的需求以及自己對廚師能力的了解，安排擅長做這些菜的廚子炒菜。

這樣，酒店的後廚就不必為每位廚師安排灶眼，只需少量灶眼（比如8個），供那些需要上崗炒菜（被激活）的廚師使用就可以了。

這就相當於MoE的原理：只激活少量專家，從而大幅降低計算量。

是不是看起來很不錯，但是有一點很重要：不參與炒菜的廚子們雖然不佔用灶眼，但是還是要擠在後廚隨時等待召喚。

也就是說，MoE模型里那些未激活專家，雖然不消耗算力，但它們的參數量仍然要佔用顯存/內存，帶來巨大的存儲開銷和調度複雜性。

回過頭來，我們再來看DeepSeek-R1/V3，是稀疏度極高的MoE模型（總參數量6710億，激活量370億）。

按照DeepSeek官方的最新披露，模型每層256個專家，只有8個被激活（V3的Transformer 層數設置為 61 層）。

好比你的飯店有60多個後廚房間，每個屋裡放256個廚師，同時只有8個廚師幹活，其他待命。

你想想，恐怕只有新東方廚師專修學院才這麼干吧。

這就意味着，你需要配置超高的一體機（大顯存、大內存），才能夠運行滿血版DeepSeek。

事實證明，目前的狀況也的確如此，市面上的「真·滿血DeepSeek一體機」價格都是100萬起，甚至要大幾百萬。

把MoE模型裝進一體機的不科學之處在於↓

我花了大錢買了一堆不能同時幹活的專家，只為他們可以減少計算量。
然而，這種一體機部署模式算力是我買斷的，難道不應該讓他們盡量都幹活，從而讓算力最大化使用嗎？
我的顯存/內存/硬盤都是為了裝下6710億參數，但實際幹活只有370億參數…

所以，我們的觀點是：

一體機其實是運行DeepSeek這種MoE模型的最差選擇，更適合運行那些非MoE的全參數激活模型。

這一點，大家如果仔細看上周DeepSeek官方在知乎披露的推理優化架構就明白了。

人家說的很清楚，要想獲得「更大的吞吐、更低的延遲」，核心就是要使用「大規模跨節點專家並行」。

你一體機就單個節點、8張卡，勉強裝下所有專家，還並行個毛線啊？

按照DeepSeek給出的官方參考推理架構（專家並行、數據並行、PD分離）：

Prefill階段：部署單元4節點（32張H800），32路專家並行和數據並行。
Decode階段：部署單元18節點（144張H800），144路專家並行和數據並行。

這就意味着，一個22節點的集群（176張卡），才能發揮出最優的推理吞吐和延遲。（讓每個專家獲得足夠的輸入，都忙活起來，而不是「佔著茅坑不拉屎」）

正因為這種採用這種大規模並行架構，DeepSeek官方給出的單服務器平均推理性能才高得離譜（輸入：73.7k tokens/s，輸出14.8k tokens/s）。

而一體機廠商們給出的性能，輸出+輸入的總和最多也不過4k tokens/s。

當然，我們並不是要否定大模型一體機，只是一體機不適合部署MoE模型，讓它跑個稠密模型，不需要大規模並行的，還是很好的。

眼下DeepSeek一體機滿天飛，更多的還是滿足客戶的情緒價值：本地化、開箱即用、專屬性……

尤其在數據隱私方面，一體機有着無與倫比的優勢，不只是合規，更能切實有效的保護數據不出域。

比如，很多通過API、WEB或APP提供DeepSeek服務的供應商，在他們的用戶協議里可能赫然寫着「…我們可能會將服務所收集的輸入及對應輸出，用於本協議下服務的優化…」。

這對於大部分企業級客戶來說，這都是無法接受的，所以本地化部署肯定是剛需，這也是目前DeepSeek一體機火爆的原因（即便性能不佳）。

其實，很多企業過去兩年自己囤過算力，此時參考DeepSeek的大規模並行架構，部署起來，相信會有不錯的效果。

而滿血版的DeepSeek一體機，企業可以量預算而行，不要硬上：

第一，蒸餾版，體積小性能好，效果差點不耽誤練手；
第二，最近新模型層出不窮，可以嘗試下非MoE架構的小體積新模型；
第三，相信不久的將來下一代DeepSeek就會發佈，屆時再下手也不遲。

大模型的前方是星辰大海，但我們，才剛剛上路呢。

財經

銀之傑恒生電子大金融概念股反彈股價回調結束了嗎？

大家好，本期視頻共同來看一下迎知傑與恒生電子。這兩支票是和大金融息息相關，而且作為金融服務行業的題材，其實在短期結構整體市場走暖的情況之下，尤其是向上不斷創新高的情況之下，確實還是起到了相應的正相關的作用。

07月12日 1098

恆寶股份中科金財穩定幣概念股繼續走強股價新高後如何看？

大家好，本期視頻共同來看一下恆寶股份與中科競才這兩支票近期的表現，確實非常的強勢，尤其是恆寶股份依然還能夠保持繼續的創新高。它的走勢自從低點所形成的漲幅還是非常的驚人，而且指標層面所形成的多頭走勢依然還能夠保持和上方所形成的骨架繼續的向上多

07月12日 1972

牧原股份，穿越「弱周期」

在生豬價格走低的不利市場環境下，牧原股份依然取得了驚人的業績增長。7月9日，國內生豬養殖行業巨頭牧原股份發佈半年度業績預告，預計上半年實現凈利潤為105.00億元–110.00億元，同比增長924.....

07月12日 3050

聯合利華高層新任命：曾管過中國業務的龍嘉華「開啟新篇章」，美妝與健康總裁接棒

作者：潘嫻（原創）繼今年3月迎來新CEO後，聯合利華再有高層任命。昨日晚間，印度聯合利華宣布（HUL），現任聯合利華美妝與健康總裁Priya Nair將被任命為該公司首席執行官兼董事總經理，自2025年8月1日起生效。在聯合利華工作了37年後，龍嘉華（Rohit Jawa）將於2025年7月31日卸任印度聯合利華首席執行官兼董事總經理一職，...

07月12日 5208

漲漲漲！飆漲！創13年來新高

北京時間7月11日，國際現貨白銀價格持續攀升，突破每盎司38美元，現達到每盎司38.06美元，創2012年以來最高水平。國內白銀價格同步走強，現報8.62元/克，年內累計漲幅超24%。據此前報道：今年以來，白銀價格一路上漲，成為全球大宗商品

07月11日 1730

大智慧：上半年預虧280萬元至420萬元，同比大幅減虧

大智慧視覺中國資料圖大智慧預計上半年實現大幅減虧。7月11日晚間，上海大智慧股份有限公司（大智慧，601519.SH）發佈2025年半年度業績預告。預計2025年半年度實現歸母凈利潤為-420萬元到-280萬元，上年同期為-1.38億元，據記者計算預計同比減虧超1.33億元。此外，大智慧預計2025年半年度實現歸母扣非凈利潤為-4000萬元到...

07月11日 1715

「證券業高質量發展28條」出台，中證協明確未來工作重點

中國證券業協會視覺中國資料圖7月11日，澎湃新聞記者了解到，中國證券業協會（下稱「中證協」）向各家券商下發了《中國證券業協會關於加強自律管理推動證券業高質量發展的實施意見》（下稱「《實施意見》」），明確了中證協今後一段時期的職能定位、工作重點和主要任務。整體來看，《實施意見》共28條，主要包括八方面內...

07月11日 5084

寧德時代副董事長夫婦向復旦大學捐贈405萬股股份，價值超11億元，過戶手續完成！此前還有校友捐贈1億元，不留名

每經編輯：杜宇7月10日晚間，寧德時代（SZ300750）發佈公告稱，公司股東及副董事長李平及其配偶擬向上海復旦大學教育發展基金會捐贈其持有的公司405萬股股票，上述股票均為無限售流通股。2025年7月10日，捐贈過戶手續已全部辦理完畢。捐

07月11日 1988

2025北京麗澤國際消費季啟幕創新場景激活消費新活力

央廣網北京7月11日消息（記者朱冠安）7月11日，由北京麗澤金融商務區管委會主辦的2025麗澤國際消費季在京啟幕。本次活動以「盈豐而上鏡啟繁融」為主題，融合「果甄蔬適節」市集等豐富活動，構建「15分鐘自然生活圈」消費場景，為市民帶來集消費、文化、藝術於一體的沉浸式體驗，為京城夏日注入全新消費活力。活動現場（央...

07月11日 6211