大模型的「詛咒」被DeepSeek破除了嗎?

2025年02月08日18:10:34 動漫 7328

大模型的「詛咒」被DeepSeek破除了嗎? - 天天要聞

新一年的全球科技圈,主角儼然是deepseek。從發布以來,deepseek在整個ai產業鏈上引發一系列連鎖反應,無論是openai,還是英偉達,其明顯的震驚似乎皆驗證著deepseek已奇襲成功。

而deepseek的初步表現也的確可圈可點,數據顯示,上線5天deepseek日活躍用戶已超過chatgpt,上線20天的日活達2000萬人次以上,已是chatgpt的23%。當前,deepseek成為全球增速最快的ai應用。

在海外一眾ai玩家不可置信的同時,國內ai領域一片「鑼鼓喧天」:截至目前,阿里雲、百度雲、騰訊雲、位元組火山引擎均已正式支持deepseek;同時,百度崑崙芯、天數智芯、摩爾線程接連宣布支持deepseek模型。

這也標誌著全球ai競速賽中,國產廠商終於又跨出了一步。而deepseek的出現,是否為僵化已久的大模型行業破除了一些傳統「詛咒」,很多至關重要的細節,其實還值得進一步深究。

deepseek出圈是「偶然性」的嗎?

縱觀當前圍繞deepseek的幾大主要爭議,似乎每一點都指向同一個問題:deepseek是否真的實現了大模型的技術突破。早在deepseek公布其模型訓練成本僅為行業1/10時,就有聲音質疑,deepseek是通過大幅縮減模型參數規模,或依賴母公司幻方早期囤積的廉價算力實現的。

從某種角度來看,這些質疑有跡可循。

一方面,deepseek在縮減模型參數規模方面的「激進」有目共睹,另外一方面,deepseek背後的幻方確實有一定的算力儲存。據悉,幻方是bat之外唯一能夠儲備萬張a100晶元的公司,有報道在2023年就曾公布過國內囤積超過1萬枚gpu的企業不超過5家。

幻方就是其中之一。

但值得一提的是,無論是模型參數規模的縮減,還是算力創新爭議都無法否定deepseek「小力出奇蹟」打法的實質意義。首先,deepseek-r1在參數量僅為1.5億(1.5b)的情況下,在數學基準測試中以79.8%的成功率超越gpt-4等大模型。

其次,輕量化模型天然在推理能力與性能方面表現更出彩,訓練和運行成本也更低。據悉,deepseek以僅需1/50的價格提供了gpt-4類似的性能,在中小型企業和個人開發者中搶奪了一定的市場地位。

至於幻方對deepseek的加成,與其說是一場資本的偶然遊戲,不如說是國產大模型成長的必然結果。值得注意的是,幻方量化算是國內第一批闖入大模型賽道的企業,早在2017年,幻方就宣稱要實現投資策略全面ai化。

2019年,幻方量化成立ai公司,其自研的深度學習訓練平台「螢火一號」總投資近2億元,搭載了1100塊gpu;兩年後,「螢火二號」的投入增加到10億元,搭載了約1萬張英偉達a100顯卡。

2023年11月,deepseek 的首個開源模型 deepseek-coder發布。也就是說,這個引起海外科技巨頭集體破防的deepseek不是一夜之間的產物,而是國產ai廠商在大模型布局中早晚要走的一步。

大模型的「詛咒」被DeepSeek破除了嗎? - 天天要聞

不可否認,當前國內已具備培育「deepseek 」的客觀條件。公開資料顯示,一個全面的人工智慧體系正在各方資本的追捧下誕生,國內人工智慧相關企業超過4500家,核心產業規模接近6000億元人民幣。

晶元、演算法、數據、平台、應用……我國以大模型為代表的人工智慧普及率達16.4%。

當然,deepseek的技術路徑依賴風險始終存在,這也讓deepseek的出圈多了一絲偶然,尤其「數據蒸餾技術」不斷遭受重重質疑。事實上,deepseek並非第一個使用數據蒸餾的大模型,「過度蒸餾」甚至是當前人工智慧賽道的一大矛盾。

來自中科院、北大等多家機構就曾指出,除了豆包、claude、gemini之外,大部分開/閉源llm蒸餾程度過高。而過度依賴蒸餾可能會導致基礎研究的停滯,並降低模型之間的多樣性。上海交通大學也有教授表示,蒸餾技術無法解決數學推理中的根本性挑戰。

總而言之,這些都在反逼deepseek乃至整個國產大模型賽道繼續自我驗證,或許,國內還會誕生第二個「deepseek」,從現實的角度來看,deepseek成功的必然遠遠大於偶然。

「開源時代」要來臨了嗎?

值得注意的是,相比於技術之爭,deepseek也再度引發了全球科技圈對開源、閉源的激烈論證。meta首席科學家楊立昆還在社交平台上表示,這不是中國在追趕美國,而是開源在追趕閉源。

談及開源模型,還要追溯到2023年meta的一場源代碼泄露風波。彼時,meta順水推舟發布了llama 2開源可商用版本,頓時在大模型賽道掀起開源狂潮,國內諸如悟道、百川智能、阿里雲紛紛進入開源大模型領域。

根據kimi chat統計,2024年全年開源大模型品牌超過10個。2025年開年不足兩個月,除了大火的deepseek之外,參與開源者數不勝數。

據悉,1月15日,minimax開源了兩個模型。一個是基礎語言大模型minimax - text - 01,另一個是視覺多模態大模型minimax - vl - 01;同時,nvidia也開源了自己的世界模型,分別有三個型號:nvidia cosmos的nano、super和ultra;1月16日,阿里雲通義也開源了一個數學推理過程獎勵模型,尺寸為7b。

從2023年到2025年,無數ai人才爭論不休後,大模型的「開源時代」終於要來了嗎?

可以確定的一點是,比起閉源模式,開源模型能在短時間內憑藉其開放性獲得大量關注。公開資料顯示,當年在「llama 2」發布之初,其在hugging face檢索模型就有超6000個結果。百川智能方面則顯示,旗下兩款開源大模型在當年9月份的下載量就超過500萬。

事實上,deepseek能快速走紅與其開源模式分不開關係。2月統計顯示,當前接入deepseek系列模型的企業不計其數,雲廠商、晶元廠商、應用端企業皆來湊了把熱鬧。在ai需求鼎盛的當前,大模型開源似乎更能促進ai生態化。

但大模型賽道開源與否,其實還有待商榷。

mistral ai、xai雖然都是開源的支持者,但它們的旗艦模型目前都是封閉的。國內大部分廠商基本也是一手閉源,一手開源,典型的例子如阿里雲、百川智能,甚至李彥宏一度是閉源模式的忠實擁躉。

原因並不難猜測。

一方面,在全球科技領域裡開源ai公司都不受資本歡迎,反而是閉源ai企業在融資方面更有優勢。數據統計顯示,從2020年以來,全球閉源 ai 領域初創公司已完成 375 億美元融資,而開源類型的 ai 公司僅獲 149 億美元融資。

這對花錢如流水的ai企業而言,其中的差距不是一星半點。

另外一方面,開源ai的定義在這兩年愈發複雜。2024年10月份,全球開放源代碼促進會發布關於「開源ai定義」1.0版本,新定義顯示,ai大模型若要被視為開源有三個要點:第一,訓練數據透明性;第二,完整代碼;第三,模型參數。

基於這一定義,deepseek就被質疑不算真正意義上的開源,只是為了迎合短期聲勢。而在全球範圍內,《nature》的一篇報道也指出,不少科技巨頭宣稱他們的ai模型是開源的,實際上並不完全透明。

前幾日,受到「打擊」的奧爾特曼首次正面承認openai的閉源「是一個錯誤」,或許,趕著deepseek的熱度,一場ai界的「口水大戲」又要拉開序幕。

大規模的算力投入即將「暫停」?

這段時間,不少沉迷囤積算力的ai企業因deepseek的橫空出世遭到冷嘲熱諷,英偉達這類算力供應商還在股價上跌了一個巨大的跟頭。坦白來說,deepseek在某些方面的確帶來了新的突破,尤其在「壟斷詛咒」上,緩解了一部分焦慮。

但全球大模型賽道的算力需求依舊不可忽視,甚至deepseek自身都未必能暫停算力投入。

需要注意的是,deepseek目前僅支持文字問答、讀圖、讀文檔等功能,還未涉及圖片、音頻和視頻生成領域。即便這樣,其伺服器還困在崩潰的邊緣,而一旦想要改變形式,算力需求則會呈爆炸式增長,視頻生成類模型與語言模型之間的算力需求差距甚大。

公開數據顯示,openai的sora視頻生成大模型訓練和推理所需要的算力需求分別達到了gpt-4的4.5倍和近400倍。從語言到視頻之間的跨度尚且如此之大,隨著各種超級算力場景的誕生,算力建設的必要性只增不減。

數據顯示,2010年至2023年間,ai算力需求翻了數十萬倍,遠超摩爾定律的增長速度。進入2025年,openai發布了首個ai agent產品operator,大有要引爆超級算力場景的趨勢,這才是關係算力建設是否繼續的關鍵。

據悉,當前大模型發展定義總共分為五個發展階段:l1 語言能力、l2 邏輯能力、l3 使用工具的能力、l4 自我學習能力、l5 探究科學規律。而agent位於l3 使用工具能力,同時正在開啟對l4的自我學習能力的探索。

根據gartner預測,到2028年,全球將有15%的日常工作決策預計將通過agentic ai完成。如果大模型賽道按照規劃預想地一路狂奔,從l1到l5,全球各大ai企業對算力的建設更加不會忽視。

到l3階段,算力需求大概會是多少?

巴萊克銀行在2024年10月份的一則報告中預測過,到2026年,假如消費者人工智慧應用能夠突破10億日活躍用戶,並且agent在企業業務中有超過5%的滲透率,則需要至少142b exaflops(約150,000,000,000,000 p)的ai算力生成五千萬億個token。

即便超級應用階段的到來還遙遙無期,在目前大模型賽道加速淘汰的激烈戰場上,也沒有一家企業甘願落後一步。微軟、谷歌、亞馬遜、meta、位元組跳動、阿里、騰訊、百度……這些海內外的ai巨頭只怕會繼續花錢賭未來。

另外,deepseek最為人稱道的莫過於繞開了「晶元大關」。

然而,作為算力產業的基石,相同投入下,優質的算力基礎設施往往會提供更高的算力效率與商業回報。《2025年算力產業十大趨勢》中提到過,以gpt-4為例,不同硬體配置下其性能會發生顯著差異。對比h100和gb200等不同硬體配置驅動gpt-4的性能,採用gb200 scale-up 64配置的盈利能力是h100 scale-up 8配置的6倍。

大模型的「詛咒」被DeepSeek破除了嗎? - 天天要聞

deepseek一問三崩的伺服器,或許暗示著大模型賽道的「追芯」遊戲在算力角逐環節中遲遲未能結束。據悉,2025年,英偉達下一代gpu gb300可能會出現多個關鍵硬體規格變化,而國內的ai晶元國產化進程也星夜兼程。

種種跡象顯示,辛苦的算力建設一時半會無法停止,反而更卷了。

道總有理,曾用名歪道道,互聯網與科技圈新媒體。本文為原創文章,謝絕未保留作者相關信息的任何形式的轉載。

動漫分類資訊推薦

動畫電影《鬼滅之刃:無限城篇》公開了宇髓天元視覺圖 - 天天要聞

動畫電影《鬼滅之刃:無限城篇》公開了宇髓天元視覺圖

《鬼滅之刃:無限城篇》電影近日公開了新的天元宇髓視覺圖,這也是官方100天倒計時宣傳活動的一部分,正式吹響了「鬼滅最終章」三部曲的衝鋒號角。天元這一版海報展現了他退役後的全新造型:一頭披散的長髮、一隻眼帶上眼罩、整個人少了幾分戰場上的張揚鋒芒,卻更顯穩重冷靜。儘管他在「游郭篇」之後正式從鬼殺隊引退,但...
劇版《哈利波特》仍會聘用羅琳:想辯論去推上找她 - 天天要聞

劇版《哈利波特》仍會聘用羅琳:想辯論去推上找她

HBO董事長凱西·布洛伊斯表示,不會因J.K.羅琳反跨性言論解僱她,「很明顯,那是她個人的政治觀點,她有權持有自己的觀點,《哈利·波特》並沒有被秘密地注入任何特定思想。如果你想和她辯論,可以去X上找她。」J.K.羅琳目前擔任劇版《哈利·波特》執行製片人,布洛伊斯說:「與J.K.羅琳合作並不是一件新鮮事,我們已經合作...
俄烏,突發! - 天天要聞

俄烏,突發!

【導讀】澤連斯基拒絕普京72小時停火提議中國基金報記者 李智綜合整理一起來看下俄烏局勢的最新消息。澤連斯基拒絕普京72小時停火提議據烏克蘭國家通訊社報道,烏克蘭總統澤連斯基在與記者交談時明確表示,他拒絕俄羅斯總統普京提出的在5月8日至5月10日實施72小時停火提議。澤連斯基堅持應儘快實現30天停火,並稱無條件停火...
「銘刻五三·孫之俊抗戰漫畫展」濟南開展 - 天天要聞

「銘刻五三·孫之俊抗戰漫畫展」濟南開展

齊魯晚報·齊魯壹點 劉桂斌今年是「五三慘案」97周年。5月3日,在濟南市拉響防空警報,告誡世人不忘國恥、警鐘長鳴的同時,一場名為「銘刻五三·孫之俊抗日漫畫展」的展覽同時舉辦,用50幅抗日漫畫(版畫)系統呈現了「五三漫畫社」的藝術抗爭史。
黔貨出山大比拼,推動農文旅深度融合 - 天天要聞

黔貨出山大比拼,推動農文旅深度融合

4月29日至5月1日,「黔貨出山·八仙過海」2025年粵黔協作幫扶促消費「1+8」現場珠遵展銷對接活動在廣東省廣州市廣東區域協作消費幫扶產品交易中心舉辦。在活動現場,遵義市文化旅遊局圍繞紅旅、茶旅、酒旅、民族文化包裝推出了4條精品線路並在現場進行推介,發放遵義旅遊地圖,提升「紅色聖地 醉美遵義」品牌影響力和美譽度...
《哪吒2》的柬埔寨語配音是認真的嗎?是認真的! - 天天要聞

《哪吒2》的柬埔寨語配音是認真的嗎?是認真的!

極目新聞記者 付瞰近日,不少網友在社交平台分享了幾則《哪吒2》柬埔寨語預告片,對哪吒、敖丙、申公豹等主角的柬埔寨語配音表示,「聽不懂,但大為震撼」。這幾則預告視頻中的「柬埔寨版哪吒」聲線較細,叛逆中又透著幾分乖巧,與中文原版里的「小魔王」氣質迥異。尤其是視頻中,小哪吒與小敖丙互相喊名字的奇妙發音,更是...
上月底辭去威海市副市長職務的徐明,新職明確 - 天天要聞

上月底辭去威海市副市長職務的徐明,新職明確

據榮成市人民政府官網消息,4月28日,市委理論學習中心組進行集體學習,威海市委常委、榮成市委書記徐明主持學習並講話。上述消息表明,徐明已任威海市委常委。公開資料顯示,徐明,男,漢族,1970年1月生,省委黨校研究生,中共黨員。4月11日,山東省委組織部發布幹部任前公示,其中,時任威海市副市長、榮成市委書記的徐...