華爾街深度研究:DeepSeek是AI末日嗎?

2025年01月29日20:10:43 科學 6238

春節期間,deepseek新一代開源模型以驚人的低成本和高性能引發熱議,在全球投資界引發劇震。

市場上甚至出現了deepseek"僅用500萬美元就複製openai"的說法,認為這將給整個ai基礎設施產業帶來「末日」。

對此,華爾街知名投行伯恩斯坦在詳細研究deepseek技術文檔後發布報告稱,這種市場恐慌情緒明顯過度,deepseek用「500萬美元複製openai」是市場誤讀。

另外,該行認為,雖然deepseek的效率提升顯著,但從技術角度看,並非奇蹟。而且,即便deepseek確實實現了10倍的效率提升,這也僅相當於當前ai模型每年的成本增長幅度。

該行還表示,目前ai計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收,因此對ai板塊保持樂觀。

「500萬美元複製openai」是誤讀

對於「500萬美元複製openai」的說法,伯恩斯坦認為,實際上是對deepseek v3模型訓練成本的片面解讀,簡單將gpu租用成本計算等同於了總投入:

這500萬美元僅僅是基於每gpu小時2美元的租賃價格估算的v3模型訓練成本,並未包括前期研發投入、數據成本以及其他相關費用

技術創新:效率大幅提升但非顛覆性突破

接著,伯恩斯坦在報告中詳細分析了deepseek發布的兩大模型v3、r1詳細技術特點。

(1)v3模型的效率革命

該行表示,v3模型採用專家混合架構,用2048塊nvidia h800 gpu、約270萬gpu小時就達到了可與主流大模型媲美的性能。

具體而言,v3模型採用了混合專家(moe)架構,這一架構本身就旨在降低訓練和運行成本。在此基礎上,v3還結合了多頭潛在注意力(mhla)技術,顯著降低了緩存大小和內存使用。

同時,fp8混合精度訓練的運用進一步優化了性能表現。這些技術的綜合運用,使得v3模型在訓練時僅需同等規模開源模型約9%的算力,便能達到甚至超越其性能。

例如,v3預訓練僅需約270萬gpu小時,而同樣規模的開源llama模型則需要約3000萬gpu小時。

  • moe架構: 每次只激活部分參數,減少計算量。
  • mhla技術: 降低內存佔用,提升效率。
  • fp8混合精度訓練: 在保證性能的同時,進一步提升計算效率。

華爾街深度研究:DeepSeek是AI末日嗎? - 天天要聞

談及v3模型帶來的效率提升,伯恩斯坦認為,與業界3-7倍的常見效率提升相比並非顛覆性突破:

moe架構的重點是顯著降低訓練和運行的成本,因為在任何一次只有一部分參數集是活動的(例如,當訓練v3時,只有671b個參數中的37b為任何一個令牌更新,而密集模型中所有參數都被更新)。

對其他moe比較的調查表明,典型的效率是3-7倍,而類似大小的密度模型具有類似的性能;

v3看起來甚至比這個更好(10倍以上),可能考慮到該公司在模型中帶來的其他一些創新,但認為這是完全革命性的想法似乎有點誇張,並且不值得在過去幾天里席捲twitter世界的歇斯底里。

(2)r1模型的推理能力與「蒸餾」策略

deepseek的r1模型則在v3的基礎上,通過強化學習(rl)等創新技術,顯著提升了推理能力,使其能夠與openai的o1模型相媲美。

華爾街深度研究:DeepSeek是AI末日嗎? - 天天要聞

值得一提的是,deepseek還採用了「模型蒸餾」策略,利用r1模型作為「教師」,生成數據來微調更小的模型,這些小模型在性能上可以與openai的o1-mini等競爭模型相媲美。這種策略不僅降低了成本,也為ai技術的普及提供了新的思路。

  • 強化學習(rl): 提升模型推理能力。
  • 模型蒸餾: 利用大模型訓練小模型,降低成本。

對ai板塊保持樂觀

伯恩斯坦認為,即便deepseek確實實現了10倍的效率提升,這也僅相當於當前ai模型每年的成本增長幅度。

事實上,在「模型規模定律」不斷推動成本上升的背景下,像moe、模型蒸餾、混合精度計算等創新對ai發展至關重要。

根據傑文斯悖論,效率提升通常會帶來更大的需求,而非削減開支。該行認為,目前ai計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收。

基於以上分析,伯恩斯坦對ai板塊保持樂觀。

本文來自華爾街見聞,歡迎下載app查看更多

科學分類資訊推薦

圖解巷道高冒區、複雜空巷充填及上隅角密閉 - 天天要聞

圖解巷道高冒區、複雜空巷充填及上隅角密閉

我是通風安全,點擊上方「關注」,每天為你分享【一通三防】與【安全管理】乾貨。一、充填設備及工藝材料施工採用的設備主要有氣動隔膜泵、混合器。材料充填工藝如下:按照水灰比(1.
五十萬米高空捕捉地表細節 - 天天要聞

五十萬米高空捕捉地表細節

長光衛星智慧農業農村綜合指揮平台界面。 長光衛星供圖李岩在加工反射鏡。 本報記者 劉以晴攝「吉林一號」寬幅衛星總裝現場。 長光衛星供圖「吉林一號」是我國最大的商業遙感衛星星座和全球最大的亞米級商業遙感衛星星座。
我國首款航天大模型 讓衛星管理更聰明 - 天天要聞

我國首款航天大模型 讓衛星管理更聰明

隨著天上的衛星組網越來越多,這些衛星如何更加智能、高效地管理成為行業面臨的一個問題。我國首個航天大模型,正在助力衛星管理更聰明。航天大模型「華山」,首次將大語言模型應用在航天領域的產品上,運用AI幫助用戶完成航天器智能操控、軌道計算與分析、指令代碼生成等航天器在軌管理工作。通過數據學習,它可以快速且智...
大熊貓「荷風」「蘭韻」正式亮相奧地利美泉宮動物園 - 天天要聞

大熊貓「荷風」「蘭韻」正式亮相奧地利美泉宮動物園

當地時間5月14日,來自中國大熊貓保護研究中心的大熊貓「荷風」和「蘭韻」正式亮相奧地利維也納美泉宮動物園。當天,美泉宮動物園為「荷風」和「蘭韻」舉行了盛大的歡迎儀式。奧地利總統亞歷山大·范德貝倫發表致辭。現場觀眾熱情高漲,眾多兒童歡呼雀躍,
資深研究員親授AI實操秘籍,助力醫學研究設計效率翻倍! - 天天要聞

資深研究員親授AI實操秘籍,助力醫學研究設計效率翻倍!

我們都知道醫學研究方案設計耗時又耗力?面對複雜的實驗邏輯和文獻海量信息,如何快速產出高質量方案呢?我想這一直是大家迫切想要解決問題吧!那今天刷到這篇文章的朋友們有福了,本文結合梅斯醫學資深研究員張磊博士直播乾貨,手把手教你用AI拆解研究目標、優化實驗設計,文末還附贈工具試用入口!【研究方案設計的前置知...
我國科學家率先「看見」固體氫的最精細結構 - 天天要聞

我國科學家率先「看見」固體氫的最精細結構

常溫常壓下,氫以氣體狀態存在。高壓下,氫結晶為固體。而超高壓下固體氫的原子排列方式一直是未解之謎。14日,國際權威學術期刊《自然》發表一項重大突破:由中國科學家領銜的國際團隊用X射線納米探針首次「看見」固體氫的複雜晶體結構。這是目前世界上固
早讀|「天數天算」,AI邁向太空 - 天天要聞

早讀|「天數天算」,AI邁向太空

早上好!上觀新聞『早讀』來啦!2025年5月15日 星期四 農曆四月十八上海多雲到陰,下午起局部地區有短時小雨,22~29℃§今日關注「天數天算」,AI邁向太空※ 5月14日12時12分,國星宇航在酒泉衛星發射中心使用長征二號丁運載火箭,成功將太空計算星座021任務12顆衛星發射升空。衛星順利進入預定軌道,標誌著全球首個太空計...
與總書記交流的上海人工智慧實驗室年輕人,在探索什麼前沿領域? - 天天要聞

與總書記交流的上海人工智慧實驗室年輕人,在探索什麼前沿領域?

人工智慧是年輕的事業,也是年輕人的事業。4月29日,是上海人工智慧實驗室青年科研團隊終生難忘的一天。他們在「模速空間」參加一場以「下一代智能體的自主進化」為主題的沙龍時,與習近平總書記作了面對面交流。這些年輕人在探索什麼前沿領域?他們身處的科研環境如何?記者來到毗鄰「模速空間」的上海人工智慧實驗室,采...