華爾街深度研究:DeepSeek是AI末日嗎?

2025年01月29日20:10:43 科學 6238

春節期間,deepseek新一代開源模型以驚人的低成本和高性能引發熱議,在全球投資界引發劇震。

市場上甚至出現了deepseek"僅用500萬美元就複製openai"的說法,認為這將給整個ai基礎設施產業帶來「末日」。

對此,華爾街知名投行伯恩斯坦在詳細研究deepseek技術文檔後發佈報告稱,這種市場恐慌情緒明顯過度,deepseek用「500萬美元複製openai」是市場誤讀。

另外,該行認為,雖然deepseek的效率提升顯著,但從技術角度看,並非奇蹟。而且,即便deepseek確實實現了10倍的效率提升,這也僅相當於當前ai模型每年的成本增長幅度。

該行還表示,目前ai計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收,因此對ai板塊保持樂觀。

「500萬美元複製openai」是誤讀

對於「500萬美元複製openai」的說法,伯恩斯坦認為,實際上是對deepseek v3模型訓練成本的片面解讀,簡單將gpu租用成本計算等同於了總投入:

這500萬美元僅僅是基於每gpu小時2美元的租賃價格估算的v3模型訓練成本,並未包括前期研發投入、數據成本以及其他相關費用

技術創新:效率大幅提升但非顛覆性突破

接着,伯恩斯坦在報告中詳細分析了deepseek發佈的兩大模型v3、r1詳細技術特點。

(1)v3模型的效率革命

該行表示,v3模型採用專家混合架構,用2048塊nvidia h800 gpu、約270萬gpu小時就達到了可與主流大模型媲美的性能。

具體而言,v3模型採用了混合專家(moe)架構,這一架構本身就旨在降低訓練和運行成本。在此基礎上,v3還結合了多頭潛在注意力(mhla)技術,顯著降低了緩存大小和內存使用。

同時,fp8混合精度訓練的運用進一步優化了性能表現。這些技術的綜合運用,使得v3模型在訓練時僅需同等規模開源模型約9%的算力,便能達到甚至超越其性能。

例如,v3預訓練僅需約270萬gpu小時,而同樣規模的開源llama模型則需要約3000萬gpu小時。

  • moe架構: 每次只激活部分參數,減少計算量。
  • mhla技術: 降低內存佔用,提升效率。
  • fp8混合精度訓練: 在保證性能的同時,進一步提升計算效率。

華爾街深度研究:DeepSeek是AI末日嗎? - 天天要聞

談及v3模型帶來的效率提升,伯恩斯坦認為,與業界3-7倍的常見效率提升相比並非顛覆性突破:

moe架構的重點是顯著降低訓練和運行的成本,因為在任何一次只有一部分參數集是活動的(例如,當訓練v3時,只有671b個參數中的37b為任何一個令牌更新,而密集模型中所有參數都被更新)。

對其他moe比較的調查表明,典型的效率是3-7倍,而類似大小的密度模型具有類似的性能;

v3看起來甚至比這個更好(10倍以上),可能考慮到該公司在模型中帶來的其他一些創新,但認為這是完全革命性的想法似乎有點誇張,並且不值得在過去幾天里席捲twitter世界的歇斯底里。

(2)r1模型的推理能力與「蒸餾」策略

deepseek的r1模型則在v3的基礎上,通過強化學習(rl)等創新技術,顯著提升了推理能力,使其能夠與openai的o1模型相媲美。

華爾街深度研究:DeepSeek是AI末日嗎? - 天天要聞

值得一提的是,deepseek還採用了「模型蒸餾」策略,利用r1模型作為「教師」,生成數據來微調更小的模型,這些小模型在性能上可以與openai的o1-mini等競爭模型相媲美。這種策略不僅降低了成本,也為ai技術的普及提供了新的思路。

  • 強化學習(rl): 提升模型推理能力。
  • 模型蒸餾: 利用大模型訓練小模型,降低成本。

對ai板塊保持樂觀

伯恩斯坦認為,即便deepseek確實實現了10倍的效率提升,這也僅相當於當前ai模型每年的成本增長幅度。

事實上,在「模型規模定律」不斷推動成本上升的背景下,像moe、模型蒸餾、混合精度計算等創新對ai發展至關重要。

根據傑文斯悖論,效率提升通常會帶來更大的需求,而非削減開支。該行認為,目前ai計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收。

基於以上分析,伯恩斯坦對ai板塊保持樂觀。

本文來自華爾街見聞,歡迎下載app查看更多

科學分類資訊推薦

「獨苗」也沒了,21億美元BD宣告失敗! - 天天要聞

「獨苗」也沒了,21億美元BD宣告失敗!

5月13日,葛蘭素史克發佈公告,終止與iTeos合作研發的TIGIT 單抗EOS-448。這場總價近21億美元的豪賭黯然收場。2021年6月,GSK以6.25億美元首付款、最高15億美元里程碑款,從iTeos手裡引進三款產品,其中就包括當時
全國大部大氣擴散條件較好 - 天天要聞

全國大部大氣擴散條件較好

未來一周,全國大部大氣擴散條件較好,無大範圍霧霾天氣。但15日至17日,內蒙古西部、甘肅西部、寧夏等地有沙塵天氣。 具體預報如下 京津冀及周邊區域 未來一周,區域大部地....
我國航空輪胎關鍵材料與技術領域取得重大突破,改變行業歷史 - 天天要聞

我國航空輪胎關鍵材料與技術領域取得重大突破,改變行業歷史

IT之家 5 月 14 日消息,由中國科學院長春應用化學研究所研製的仿生合成橡膠航空輪胎,於 2025 年 5 月 12 日在某試飛基地成功完成裝機飛行驗證,標誌着我國在航空輪胎關鍵材料與技術領域取得重大突破。此次完成飛行驗證的航空輪胎是為某大型固定翼無人機專門研製,該輪胎全部採用仿生合成橡膠材料,改變了航空輪胎只能使用...
地理冷知識——尼日爾 - 天天要聞

地理冷知識——尼日爾

尼日爾共和國(The Republic of Niger,La République du Niger)位於非洲中西部,簡稱尼日爾,是撒哈拉沙漠南緣的內陸國,該國北與阿爾及利亞和利比亞接壤,南同尼日利亞和貝寧交界,西與馬里和布基納法索毗連,
磨損磨耗測試儀分類 - 天天要聞

磨損磨耗測試儀分類

磨損磨耗測試儀的分類可基於摩擦形式、測試標準及功能特性進行系統劃分,具體如下:‌一、按摩擦形式分類‌滾動摩擦測試儀‌阿克隆磨耗試驗機‌原理:試樣與砂輪以傾斜角度(0°~45°)及恆定負荷(如26.7N1)滾動摩擦,模擬輪胎等滾動工況。
生命警示:高原反應處理不當釀成不可逆後果 - 天天要聞

生命警示:高原反應處理不當釀成不可逆後果

5月10日,一名男性遊客在四川四姑娘山旅遊時,疑因高原反應送往醫院搶救無效後,遺憾離世。此事迅速引髮網絡關注。按照男子朋友的說法,來到四姑娘山鎮的第一天,他就感覺身體不適。同行人員特意為他打了一輛順風車,準備把他送往成都接受治療。接單的司機表示,頭天晚上接到單子,次日早上八點多,該男子和一位女士一同上...
【高清組圖】雲南元江河谷的「精靈舞者」——栗喉蜂虎 - 天天要聞

【高清組圖】雲南元江河谷的「精靈舞者」——栗喉蜂虎

在驕陽似火的元江河谷,生活着一群美麗的「精靈舞者」。它們在元江兩岸的沙壁上打洞築巢、繁育後代,它們有一個雅緻的名字——栗喉蜂虎。栗喉蜂虎是一種遷徙候鳥,屬國家二級保護動物,因其羽毛色彩絢麗、飛行姿態優美,被譽為「中國最美小鳥」。
全球首例:我國量子密碼技術實現雙重加密里程碑 - 天天要聞

全球首例:我國量子密碼技術實現雙重加密里程碑

IT之家 5 月 14 日消息,綜合科技日報、經濟參考網消息,中電信量子集團近日發佈了全球首個融合量子密鑰分發(QKD)和後量子加密算法(PQC)的分佈式密碼體系。該體系創新融合 QKD 和 PQC 技術,可提供端到端抗量子計算的密鑰分發與