華爾街深度研究：DeepSeek是AI末日嗎？

2025年01月29日20:10:43 科學 6238

春節期間，deepseek新一代開源模型以驚人的低成本和高性能引發熱議，在全球投資界引發劇震。

市場上甚至出現了deepseek"僅用500萬美元就複製openai"的說法，認為這將給整個ai基礎設施產業帶來「末日」。

對此，華爾街知名投行伯恩斯坦在詳細研究deepseek技術文檔後發佈報告稱，這種市場恐慌情緒明顯過度，deepseek用「500萬美元複製openai」是市場誤讀。

另外，該行認為，雖然deepseek的效率提升顯著，但從技術角度看，並非奇蹟。而且，即便deepseek確實實現了10倍的效率提升，這也僅相當於當前ai模型每年的成本增長幅度。

該行還表示，目前ai計算需求遠未觸及天花板，新增算力很可能會被不斷增長的使用需求吸收，因此對ai板塊保持樂觀。

「500萬美元複製openai」是誤讀

對於「500萬美元複製openai」的說法，伯恩斯坦認為，實際上是對deepseek v3模型訓練成本的片面解讀，簡單將gpu租用成本計算等同於了總投入：

這500萬美元僅僅是基於每gpu小時2美元的租賃價格估算的v3模型訓練成本，並未包括前期研發投入、數據成本以及其他相關費用。

技術創新：效率大幅提升但非顛覆性突破

接着，伯恩斯坦在報告中詳細分析了deepseek發佈的兩大模型v3、r1詳細技術特點。

（1）v3模型的效率革命

該行表示，v3模型採用專家混合架構，用2048塊nvidia h800 gpu、約270萬gpu小時就達到了可與主流大模型媲美的性能。

具體而言，v3模型採用了混合專家（moe）架構，這一架構本身就旨在降低訓練和運行成本。在此基礎上，v3還結合了多頭潛在注意力（mhla）技術，顯著降低了緩存大小和內存使用。

同時，fp8混合精度訓練的運用進一步優化了性能表現。這些技術的綜合運用，使得v3模型在訓練時僅需同等規模開源模型約9%的算力，便能達到甚至超越其性能。

例如，v3預訓練僅需約270萬gpu小時，而同樣規模的開源llama模型則需要約3000萬gpu小時。

moe架構: 每次只激活部分參數，減少計算量。
mhla技術: 降低內存佔用，提升效率。
fp8混合精度訓練: 在保證性能的同時，進一步提升計算效率。

談及v3模型帶來的效率提升，伯恩斯坦認為，與業界3-7倍的常見效率提升相比並非顛覆性突破：

moe架構的重點是顯著降低訓練和運行的成本，因為在任何一次只有一部分參數集是活動的（例如，當訓練v3時，只有671b個參數中的37b為任何一個令牌更新，而密集模型中所有參數都被更新）。

對其他moe比較的調查表明，典型的效率是3-7倍，而類似大小的密度模型具有類似的性能；

v3看起來甚至比這個更好（10倍以上），可能考慮到該公司在模型中帶來的其他一些創新，但認為這是完全革命性的想法似乎有點誇張，並且不值得在過去幾天里席捲twitter世界的歇斯底里。

（2）r1模型的推理能力與「蒸餾」策略

deepseek的r1模型則在v3的基礎上，通過強化學習（rl）等創新技術，顯著提升了推理能力，使其能夠與openai的o1模型相媲美。

值得一提的是，deepseek還採用了「模型蒸餾」策略，利用r1模型作為「教師」，生成數據來微調更小的模型，這些小模型在性能上可以與openai的o1-mini等競爭模型相媲美。這種策略不僅降低了成本，也為ai技術的普及提供了新的思路。

強化學習（rl）： 提升模型推理能力。
模型蒸餾: 利用大模型訓練小模型，降低成本。

對ai板塊保持樂觀

伯恩斯坦認為，即便deepseek確實實現了10倍的效率提升，這也僅相當於當前ai模型每年的成本增長幅度。

事實上，在「模型規模定律」不斷推動成本上升的背景下，像moe、模型蒸餾、混合精度計算等創新對ai發展至關重要。

根據傑文斯悖論，效率提升通常會帶來更大的需求，而非削減開支。該行認為，目前ai計算需求遠未觸及天花板，新增算力很可能會被不斷增長的使用需求吸收。

基於以上分析，伯恩斯坦對ai板塊保持樂觀。

本文來自華爾街見聞，歡迎下載app查看更多

科學

當火星夢照不亮地球的陰霾——對馬斯克火星殖民計劃的深度反思

黑色頭像背後的絕望最近，埃隆·馬斯克將自己的社交媒體頭像換成了一個黑色的地球，周圍是暗無天日的空間。這個看似簡單的圖像變化，卻透露出一種令人不安的信號——連這位科技界最具遠見的夢想家，似乎也開始對地球的未來感到絕望。這種絕望並非無中生有。

06月08日 1041

北大「韋神」心身狀態引爭議：搞科研，就應該不修邊幅不食人間煙火？

前兩天，韋東奕在某短視頻平台開了一個認證賬號，他本人出鏡講了3句話：「大家好，我叫韋東奕，這是我的賬號。」這段只有4秒鐘的視頻，不到24小時就讓韋東奕賬號的粉絲破百萬。 ....

06月08日 8825

詹姆斯·韋伯望遠鏡發佈迄今最大宇宙地圖，跨越130億年

新的 COSMOS-Web 地圖的一小部分顯示了來自宇宙各地的數千個星系。科學家公布了有史以來最龐大的宇宙地圖，涵蓋近80萬個星系，橫跨一小片天空和近130億年的宇宙歷史。部分星系極為遙....

06月07日 1620

世界海洋日｜海洋生態綜合實習原來這麼有意思！大中小學生共享生態學教育成果

「原來我們吃的海藻長這樣啊，像綠色波浪的小裙子！」6月6日，在上海海洋大學海洋生態綜合實習成果展區，臨港明珠小學三年級學生趙一諾看着大學生展示的海藻標本，不禁發出了這樣的感嘆。她拿出記錄本，在上面歪歪扭扭畫出了海藻的圖案，旁邊還標註着大哥哥教的專業名詞——「裙帶菜、孔石蓴」。6月6日，臨港新片區的小學生...

06月07日 6804