華爾街深度研究:DeepSeek是AI末日嗎?

2025年01月29日20:10:43 科學 6238

春節期間,deepseek新一代開源模型以驚人的低成本和高性能引發熱議,在全球投資界引發劇震。

市場上甚至出現了deepseek"僅用500萬美元就複製openai"的說法,認為這將給整個ai基礎設施產業帶來“末日”。

對此,華爾街知名投行伯恩斯坦在詳細研究deepseek技術文檔後發布報告稱,這種市場恐慌情緒明顯過度,deepseek用“500萬美元複製openai”是市場誤讀。

另外,該行認為,雖然deepseek的效率提升顯著,但從技術角度看,並非奇蹟。而且,即便deepseek確實實現了10倍的效率提升,這也僅相當於當前ai模型每年的成本增長幅度。

該行還表示,目前ai計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收,因此對ai板塊保持樂觀。

“500萬美元複製openai”是誤讀

對於“500萬美元複製openai”的說法,伯恩斯坦認為,實際上是對deepseek v3模型訓練成本的片面解讀,簡單將gpu租用成本計算等同於了總投入:

這500萬美元僅僅是基於每gpu小時2美元的租賃價格估算的v3模型訓練成本,並未包括前期研發投入、數據成本以及其他相關費用

技術創新:效率大幅提升但非顛覆性突破

接着,伯恩斯坦在報告中詳細分析了deepseek發布的兩大模型v3、r1詳細技術特點。

(1)v3模型的效率革命

該行表示,v3模型採用專家混合架構,用2048塊nvidia h800 gpu、約270萬gpu小時就達到了可與主流大模型媲美的性能。

具體而言,v3模型採用了混合專家(moe)架構,這一架構本身就旨在降低訓練和運行成本。在此基礎上,v3還結合了多頭潛在注意力(mhla)技術,顯著降低了緩存大小和內存使用。

同時,fp8混合精度訓練的運用進一步優化了性能表現。這些技術的綜合運用,使得v3模型在訓練時僅需同等規模開源模型約9%的算力,便能達到甚至超越其性能。

例如,v3預訓練僅需約270萬gpu小時,而同樣規模的開源llama模型則需要約3000萬gpu小時。

  • moe架構: 每次只激活部分參數,減少計算量。
  • mhla技術: 降低內存佔用,提升效率。
  • fp8混合精度訓練: 在保證性能的同時,進一步提升計算效率。

華爾街深度研究:DeepSeek是AI末日嗎? - 天天要聞

談及v3模型帶來的效率提升,伯恩斯坦認為,與業界3-7倍的常見效率提升相比並非顛覆性突破:

moe架構的重點是顯著降低訓練和運行的成本,因為在任何一次只有一部分參數集是活動的(例如,當訓練v3時,只有671b個參數中的37b為任何一個令牌更新,而密集模型中所有參數都被更新)。

對其他moe比較的調查表明,典型的效率是3-7倍,而類似大小的密度模型具有類似的性能;

v3看起來甚至比這個更好(10倍以上),可能考慮到該公司在模型中帶來的其他一些創新,但認為這是完全革命性的想法似乎有點誇張,並且不值得在過去幾天里席捲twitter世界的歇斯底里。

(2)r1模型的推理能力與“蒸餾”策略

deepseek的r1模型則在v3的基礎上,通過強化學習(rl)等創新技術,顯著提升了推理能力,使其能夠與openai的o1模型相媲美。

華爾街深度研究:DeepSeek是AI末日嗎? - 天天要聞

值得一提的是,deepseek還採用了“模型蒸餾”策略,利用r1模型作為“教師”,生成數據來微調更小的模型,這些小模型在性能上可以與openai的o1-mini等競爭模型相媲美。這種策略不僅降低了成本,也為ai技術的普及提供了新的思路。

  • 強化學習(rl): 提升模型推理能力。
  • 模型蒸餾: 利用大模型訓練小模型,降低成本。

對ai板塊保持樂觀

伯恩斯坦認為,即便deepseek確實實現了10倍的效率提升,這也僅相當於當前ai模型每年的成本增長幅度。

事實上,在“模型規模定律”不斷推動成本上升的背景下,像moe、模型蒸餾、混合精度計算等創新對ai發展至關重要。

根據傑文斯悖論,效率提升通常會帶來更大的需求,而非削減開支。該行認為,目前ai計算需求遠未觸及天花板,新增算力很可能會被不斷增長的使用需求吸收。

基於以上分析,伯恩斯坦對ai板塊保持樂觀。

本文來自華爾街見聞,歡迎下載app查看更多

科學分類資訊推薦

中國交付全球最大“人造太陽”重要部件 - 天天要聞

中國交付全球最大“人造太陽”重要部件

近日,全球最大“人造太陽”國際熱核聚變實驗堆(ITER)計劃磁體饋線採購包項目迎來關鍵節點,其最後一套校正場線圈內饋線部件在合肥竣工,並交付起運位於法國的ITER現場。這標誌着ITER磁體饋線系統中所有超大部件的研製順利完成。ITER磁體饋線系統由中國科學院合肥物質科學研究院等離子體物理研究所研製,被稱為ITER磁體系...
張振豐調研溫州學研究聯合會 構建中國學視野下的溫州學研究體系 - 天天要聞

張振豐調研溫州學研究聯合會 構建中國學視野下的溫州學研究體系

4月13日,副省長、市委書記張振豐在溫州學研究聯合會調研時強調,要深入學習貫徹習近平文化思想和習近平總書記考察浙江重要講話精神,堅持“立足溫州、研究溫州、服務溫州”,深化時間維度、放大空間維度,貫通歷史研究溫州、跳出溫州研究溫州,努力打造溫州建設高水平文化強市的重要窗口、具有全國影響力的地方學術研究的...
土撥鼠等動植物不得攜帶入境!關於國門生物安全,你要知道這些 - 天天要聞

土撥鼠等動植物不得攜帶入境!關於國門生物安全,你要知道這些

極目新聞記者 張秀娟通訊員 趙夢潔 黃曉彧 林敏“小朋友們,外來入侵物種包括哪些呢?”“在咱們出國旅遊前,需注意哪些問題呢?”4月12日,在第十個全民國家安全教育日來臨之際,武漢海關在武漢天河國際機場開展了一場別開生面的“海關開放日”活動。15名小學生化身“國門小衛士”,零距離體驗、參與海關全民國家安全教育...
月球上跳一跳,輕鬆打破跳高世界紀錄!這個展會,解密引力奧秘 - 天天要聞

月球上跳一跳,輕鬆打破跳高世界紀錄!這個展會,解密引力奧秘

頂端新聞記者 楊逍 文 時碩 圖如果你嚮往星辰宇宙,那你是否幻想過在其他星球上跳躍?在本次國防展的“星球重力”互動體驗機前,你每次的縱身一躍,都會化身成屏幕中身穿宇航員服的小人,來到月球、金星、火星、火衛二、土衛一等星體上,屏幕的上方記錄著你的跳躍高度。在月球,你輕輕一躍就能達到3米高度,輕鬆打破2.45米...
4月13日石家莊強風顯著增強的原因 - 天天要聞

4月13日石家莊強風顯著增強的原因

4月13日石家莊強風顯著增強的原因,是多重氣象條件和地理因素共同作用的結果。根據氣象監測和專家分析,此次強風具有以下關鍵成因:一、極端天氣系統的疊加效應1.
神十九乘組“太空出差”倒計時:各項空間科學實(試)驗穩步推進 - 天天要聞

神十九乘組“太空出差”倒計時:各項空間科學實(試)驗穩步推進

IT之家 4 月 13 日消息,據央視網報道,神舟十九號航天員乘組的“太空出差”之旅即將進入倒計時。上周,神十九乘組穩步推進各項空間科學實(試)驗,在開展站內環境監測、設備檢查維護等工作同時,積極開展健康維護。神十九乘組利用腦電設備開展了多項實驗的測試工作,地面科研人員將利用獲取的數據探究重力對視覺運動信息...
感受活力丨機器人正在進化中……這樣的“生活搭子”,你喜歡嗎? - 天天要聞

感受活力丨機器人正在進化中……這樣的“生活搭子”,你喜歡嗎?

模仿人類奔跑、跳躍、空翻,像人一樣說話、思考甚至察言觀色。這不是科幻電影對未來的虛構,而是2025中國機器人產業闊步向前的現實。小時候的你,是不是也曾暢想過:家裡有一個機器人,能買菜、做飯、鋪床、掃地,幫你干農活,還可以照顧家裡老人……時至今日,這些“天馬行空”的想象,正在變成現實。“12點了,您該吃藥了...