DeepSeek究竟創新了什麼?

2025年02月23日18:22:08 科技 1070

來源:《財經》雜誌

DeepSeek春節前夕爆火,迄今熱度不減。DeepSeek徹底走開源路線,它的大模型既性能優異,訓練成本和使用成本又都超低,讓人工智慧從業者燃起了「我也能行」的希望,讓各行各業燃起了「趕緊把人工智慧用起來吧」的熱情。

伴隨著這些振奮人心的消息,也有一些真假難辨的說法同時在流傳,例如DeepSeek顛覆了人工智慧的發展方向,DeepSeek的水平已經超過人工智慧行業的領頭羊OpenAI;或者,DeepSeek是個巨大泡沫,它只是「蒸餾」了OpenAI的模型。

為搞清楚這些說法,這些天我研讀了很多資料,也請教了一些專家,對DeepSeek究竟創新了什麼、能否持續創新有了初步答案。

先說第一個問題的結論:DeepSeek的大模型採用了更加高效的模型架構方法、訓練框架和演算法,是巨大的工程創新,但不是從0到1的顛覆式創新。DeepSeek並未改變人工智慧行業的發展方向,但大大加快了人工智慧的發展速度。

為何會得出這個結論?我們需要先了解人工智慧技術的發展脈絡。

人工智慧簡史

人工智慧發端於上世紀40年代,已經發展了近80年,奠基人是英國計算機科學家艾倫·圖林(Alan Turing)。以他的名字命名的圖林獎是計算機科學界的諾貝爾獎

如今,主導人工智慧行業的是大模型技術,主導應用是生成式AI——生成語義、語音、圖像、視頻。無論DeepSeek系列,還是OpenAI的GPT系列,還是豆包、Kimi、通義千問、文心一言,都屬於大模型家族。

大模型的理論基礎是神經網路,這是一種試圖讓計算機摹仿人腦來工作的理論,該理論和人工智慧同時發端,但頭40年都不是主流。20世紀80年代中後期,多層感知機模型和反向傳播演算法得到完善,神經網路理論才有了用武之地。多人對此作出關鍵貢獻,其中最為我們熟知的是去年獲得諾貝爾物理學獎的傑弗里・辛頓(Geoffrey Hinton),他擁有英國和加拿大雙重國籍

神經網路理論後來發展為深度學習理論,關鍵貢獻者除了被譽為「深度學習之父」的傑弗里・辛頓,還有法國人楊·勒昆(Yann LeCun,中文名楊立昆)、德國人尤爾根・施密德胡伯(jürgen schmidhuber)。他們分別提出或完善了三種模型架構方法:深度信念網路(DBN,2006)、卷積神經網路(CNN,1998)、循環神經網路RNN,1997),讓基於多層神經網路的機器深度學習得以實現。

但到此為止,都是小模型時代,DBN和RNN的參數量通常是幾萬到幾百萬,CNN參數量最大,也只有幾億。因此只能完成專門任務,比如基於CNN架構的谷歌AlphaGo,打敗了頂尖人類圍棋手柯潔李世石,但它除了下圍棋啥也不會。

2014年,開發AlphaGo的谷歌DeepMind團隊首次提出「注意力機制」。同年底,蒙特利爾大學教授約書亞·本吉奧(Yoshua Bengio)和他的兩名博士生髮表更詳盡的論文,這是神經網路理論的重大進步,極大增強了建模能力、提高了計算效率、讓大規模處理複雜任務得以實現。

約書亞·本吉奧、楊·勒昆、傑弗里・辛頓一起獲得了2019年的圖林獎。

2017年,谷歌提出完全基於注意力機制的Transformer架構,開啟大模型時代。迄今,包括DeepSeek在內的主流大模型都採用該架構。強化學習理論(Reinforcement Learning,RL)、混合專家模型(Mixture of Experts,MOE,又譯稀疏模型)也是大模型的關鍵支撐,相關理論均在上世紀90年代提出,21世紀10年代後期由谷歌率先用於產品開發

順便澄清一個普遍誤解,MOE並不是和Transformer並列的另一種模型架構方法,而是一種用來優化Transformer架構的方法。

今天的主流大模型,參數量已達萬億級,DeepSeek V3是6710億。如此大的模型,對算力的需求驚人,而英偉達的GPU晶元正好提供了算力支持,英偉達在AI晶元領域的壟斷地位,既讓它成為全球市值最高的公司,也讓它成為中國AI公司的痛點。

谷歌在大模型時代一路領先,但這幾年站在風口上的並不是谷歌,而是2015年才成立的OpenAI,它的各類大模型一直被視為業界頂流,被各路追趕者用來對標。這說明在人工智慧領域,看似無可撼動的巨頭,其實並非無法挑戰。人工智慧技術雖然發展了80年,但真正加速也就最近十幾年,進入爆發期也就最近兩三年,後來者始終有機會。DeepSeek公司2023年7月才成立,它的母體幻方量化成立於2016年2月,也比OpenAI年輕。人工智慧就是一個英雄出少年的行業。

開發出能像人一樣自主思考、自主學習、自主解決新問題的通用人工智慧系統(Artificial General Intelligence,AGI),是AI業界的終極目標,無論奧特曼還是梁文峰,都把這個作為自己的使命。他們都選擇了大模型方向,這是業界的主流方向。

沿著大模型方向,要花多久才能實現AGI?樂觀的預測是3-5年,保守的預測是5-10年。也就是說,業界認為最遲到2035年,AGI就可實現。

大模型的競爭至關重要,大模型是各行各業人工智慧應用的最上游,它就像人的大腦,大腦指揮四肢,大腦的質量決定整個人的學習、工作、生活質量。

當然,大模型並非通往AGI的唯一路徑。正如上世紀90年代後「深度學習-大模型」路線顛覆了人工智慧頭幾十年的「規則系統-專家系統」路線,「深度學習-大模型」路線也有可能被顛覆,只是我們現在還看不到誰會是顛覆者。

DeepSeek創新了什麼?

如今,DeepSeek又成了挑戰者,它真的已經超越OpenAI了嗎?並非如此。DeepSeek在局部超過了OpenAI的水平,但整體而言OpenAI仍然領先。

先來看雙方的基礎大模型,OpenAI是2024年5月發布的GPT4-o,DeepSeek是2024年12月26日發布的V3。斯坦福大學基礎模型研究中心有個全球大模型綜合排名,最新排名是今年1月10日,一共六個指標,各指標得分加總後,DeepSeek V3總分4.835,名列第一;GPT4-o(5月版)總分4.567,僅列第六。第二到第五名都是美國模型,第二名是Claude 3.5 Sonnet,總分4.819,開發這個模型的Anthropic公司2021年2月才成立。

DeepSeek究竟創新了什麼? - 天天要聞

推理模型是大模型的新發展方向,因為它的思維模式更像人,前面說了,開發出能像人一樣自主思考、自主學習、自主解決新問題的通用人工智慧是AI業界的終極目標。

2024年9月12 日,OpenAI發布世界上第一款推理大模型獵戶座1號(orion1 ,o1),o1在解決數學、編程和科學問題上的能力提升驚人,但OpenAI走閉源路線,不公布技術原理,更別提技術細節。一時間,如何復刻o1,成為全世界AI從業者的追求。

僅僅四個月後,今年1月20日,DeepSeek發布世界第二款推理大模型R1,名字樸實無華,R就是推理(Reasoning)的縮寫。測評結果顯示,DeepSeek-R1與OpenAI-o1水平相當。但OpenAI 2024年12月20日推出了升級版o3,性能大大超過o1。目前還沒有R1和o3的直接測評對比數據。

多模態也是大模型的重要發展方向——既能生成語義(寫代碼也屬於語義),也能生成語音、圖像、視頻,其中視頻生成最難,消耗的計算資源最多。DeepSeek 2024年10月發布首個多模態模型Janus,今年1月28日發布其升級版Janus-Pro-7B,其圖像生成能力在測試中表現優異,但視頻能力如何尚無從知曉。GPT-4是多模態模型但不能生成視頻,不過OpenAI擁有專門的視頻生成模型Sora。

把模型做小做精,少消耗計算資源是另一個業界趨勢,混合專家模型的設計思路就是這個目的,推理模型也能減少通用大模型的驚人消耗。在這方面,DeepSeek的表現明顯比OpenAI優異,這些天最被人津津樂道的就是DeepSeek的模型訓練成本只有OpenAI的1/10,使用成本只有1/30。DeepSeek能夠做到如此高的性價比,是因為它的模型裡面有傑出的工程創新,不是單點創新,而是密集創新,每一個環節都有傑出創新。這裡僅舉三例。

★模型架構環節:大為優化的Transformer + MOE組合架構。

前面說過,這兩個技術都是谷歌率先提出並採用的,但DeepSeek用它們設計自己的模型時做了巨大優化,並且首次在模型中引入多頭潛在注意力機制(Multi-head Latent Attention,MLA),從而大大降低了算力和存儲資源的消耗。

★模型訓練環節:FP8混合精度訓練框架。

傳統上,大模型訓練使用32位浮點數(FP32)格式來做計算和存儲,這能保證精度,但計算速度慢、存儲空間佔用大。如何在計算成本和計算精度之間求得平衡,一直是業界難題。2022年,英偉達、Arm和英特爾一起,最早提出8位浮點數格式(FP8),但因為美國公司不缺算力,該技術淺嘗輒止。DeepSeek則構建了FP8 混合精度訓練框架,根據不同的計算任務和數據特點,動態選擇FP8或 FP32 精度來進行計算,把訓練速度提高了50%,內存佔用降低了40%。

★演算法環節:新的強化學習演算法GRPO。

強化學習的目的是讓計算機在沒有明確人類編程指令的情況下自主學習、自主完成任務,是通往通用人工智慧的重要方法。強化學習起初由谷歌引領,訓練AlphaGo時就使用了強化學習演算法,但是OpenAI後來居上,2015年和2017年接連推出兩種新演算法TRPO(Trust Region Policy Optimization,信任區域策略優化)和PPO (Proximal Policy Optimization,近端策略優化),DeepSeek更上層樓,推出新的強化學習演算法GRPO( Group Relative Policy Optimization 組相對策略優化),在顯著降低計算成本的同時,還提高了模型的訓練效率。

DeepSeek究竟創新了什麼? - 天天要聞

(GRPO演算法公式。Source:DeepSeek-R1論文)

看到這裡,對於「DeepSeek只是『蒸餾』了OpenAI模型」的說法,你肯定已經有了自己的判斷。但是,DeepSeek的創新是從0到1的顛覆式創新嗎?

顯然不是。顛覆式創新是指那種開闢了全新賽道,或導致既有賽道徹底轉向的創新。比如,汽車的發明顛覆了交通行業,導致馬車行業消失;智能手機取代功能手機,雖沒有讓手機行業消失,但徹底改變了手機的發展方向。

回顧人工智慧簡史,我們清楚看到,DeepSeek是沿著業界的主流方向前進,他們做了許多傑出的工程創新,縮短了中美AI的差距,但仍處於追趕狀態。白宮人工智慧顧問大衛·薩克斯(David Sacks)評價說:DeepSeek-R1讓中美的差距從6-12月縮短到3-6個月。

薩克斯說的是模型性能,但更加意義非凡的是性價比——訓練成本1/10、使用成本1/30,這讓尖端AI技術飛入尋常百姓家成為現實。最近兩周,各行各業的領頭羊紛紛接入DeepSeek大模型,部署本行業的應用,擁抱AI的熱情前所未有。

但我必須再次提醒,大模型技術進步很快,不能對階段性成果過於樂觀。同時大模型在人工智慧生態中處於最上游,是所有下游應用的依託,因此基礎大模型的質量決定了各行各業人工智慧應用的質量。

DeepSeek能否持續創新?

在DeepSeek的刺激下,薩姆·奧特曼(Sam Altman)2月13日透露了OpenAI 的發展計劃:未來幾周內將發布GPT-4.5,未來幾個月內發布GPT-5。GPT-5將整合推理模型o3的功能,是一個包含語義、語音、可視化圖像創作、搜索、深度研究等多種功能的多模態系統。奧特曼說,今後用戶不用再在一大堆模型中做選擇,GPT-5 將完成所有任務,實現「魔法般的統一智能」。果如所言,GPT-5離通用人工智慧就又進了一步。

從用戶角度,一個模型解決所有需求肯定大為方便,就像早年手機只能打電話,你出門還得帶銀行卡、購物卡、交通卡等一大堆東西,現在一部智能手機全搞定。但全搞定的同時,所需要的計算資源也會高得驚人,iPhone16的算力是當年功能機的幾千萬倍。奇蹟在於,我們使用iPhone16的成本反而比使用諾基亞8210的成本更低。希望這樣的奇蹟也能發生在人工智慧行業。

除了OpenAI,美國還有眾多頂尖人工智慧公司,他們的水平差距不大。從前面講到的那個斯坦福大學排名就能看出來,總分第一名和第十名的分差只有0.335,平均到每個指標差距不到0.06。並且各種測評榜的排名雖是重要參考,但不等於實際能力的高下。對DeepSeek而言,不僅OpenAI,Anthropic、谷歌、MetaxAI也都是強勁對手。2月18日,xAI發布了馬斯克自稱「地球最強AI」的大模型Grok-3。這個模型用了超過10萬塊H100晶元來訓練,把大模型的scaling law(規模法則,計算和數據資源投入越多模型效果越好)推向極致,但也讓scaling law的邊際效益遞減暴露無遺。

當然,中國也不是DeepSeek一家在戰鬥,中國也有眾多優秀人工智慧公司。事實上,這些年來全球人工智慧一直是中美雙峰並峙,只是美國那座峰更高一些。

儘管如此,我對梁文峰和DeepSeek團隊仍有信心。從梁文峰為數不多的採訪中可以看出,他是一個既充滿理想主義,又腳踏實地、有敏銳商業頭腦的人。他自己肯定懂技術,但應該不是技術天才,他有可能是喬布斯、馬斯克那樣能把技術天才聚集在一起做出偉大產品的技術型企業家。

梁文峰在接受《暗涌》專訪時說:「我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。我們選人的標準一直都是熱愛和好奇心。招人時確保價值觀一致,然後通過企業文化來確保步調一致。」

「最重要的是參與到全球創新的浪潮里去。過去三十多年IT浪潮里,我們基本沒有參與到真正的技術創新里。大部分中國公司習慣follow(追隨),而不是創新。中國AI和美國真正的gap(差距)是原創和模仿。如果這個不改變,中國永遠只能是追隨者。」

「創新首先是一個信念問題。為什麼矽谷那麼有創新精神?首先是敢。我們在做最難的事。對頂級人才吸引最大的,肯定是去解決世界上最難的問題。」

喬布斯有句名言:只有瘋狂到認為自己可以改變世界的人才能改變世界。從梁文峰身上,我看到了這句話的影子。

但是,我們對中國AI超越美國千萬不能盲目樂觀,DeepSeek並沒有顛覆算力演算法數據三要素的大模型發展路徑,DeepSeek的很多創新都是因為晶元受限而不得不為,比如英偉達H100的通信帶寬是每秒900GB,H800就只有每秒400GB,但DeepSeek只能用H800來訓練模型。

這些天我看了大量太平洋兩岸對DeepSeek的評論,「necessity is the mother of invention(迫不得已是創新之母)」,這句源自古希臘的諺語被不同的牛人說了好幾次。但是反過來想,DeepSeek能與OpenAI的同款產品打成平手,靠的是用逼出來的演算法優勢彌補算力劣勢,可對手已被點醒,如果他們開發出同樣好的演算法,再加上更好的晶元,那中美大模型的差距是否會再次擴大?

另一方面,雖然DeepSeek已可適配國產晶元,但考慮到性能差距,算力劣勢短期內無解。除非我們能再現電動車反轉燃油車的場面,實現換道超車。比如,用量子晶元替代硅基晶元。

陷入這種思考真是一個悲劇——技術創新本應造福全人類,卻被地緣政治因素扭曲。所以,我們更應該為DeepSeek堅決走開源路線而鼓掌。

科技分類資訊推薦

樂鑫即將量產自研 Wi-Fi 6E 晶元,僅差國際頂尖廠商一代 - 天天要聞

樂鑫即將量產自研 Wi-Fi 6E 晶元,僅差國際頂尖廠商一代

IT之家 6 月 9 日消息,樂鑫信息科技今日宣布,公司首款支持 Wi-Fi 6E 的無線通信晶元已完成工程樣片測試,計劃於 2025 年下半年正式量產。這標誌著樂鑫在高性能無線通信晶元領域實現新突破,正式進軍 Wi-Fi 6E 高速數通與透傳市場,並計劃推出一系列產品以滿足多樣化應用需求。這款晶元搭載樂鑫自研的雙核 500 MHz RISC-V...
轉轉集團 CEO 黃煒:超級轉轉是收購紅布林之後的「第一個作品」 - 天天要聞

轉轉集團 CEO 黃煒:超級轉轉是收購紅布林之後的「第一個作品」

IT之家 6 月 9 日消息,轉轉集團旗下首家二手多品類循環倉店「超級轉轉」今日正式開業,位於北京友誼商店三層,佔地面積超 3000 平方米,是一家集二手箱包、鞋服、首飾腕錶、遊戲設備、攝影攝像、小家電等在內的多品類循環倉店,也是國內首家二手多品類循環倉店。據新浪科技報道,轉轉集團創始人兼 CEO 黃煒介紹稱:「超級...
智能手錶,全面進入「開源鴻蒙時代」! - 天天要聞

智能手錶,全面進入「開源鴻蒙時代」!

2013 年,眾籌了 1030 萬美元的 Pebble 智能手錶橫空出世,開啟了數碼行業對智能手錶品類的探索。但在十餘年的發展長河中,這些「上古時期」的智能手錶品牌,因其飄忽不穩的發展路徑和割裂的產品生態,很快就被來自智能手機品牌的「正規軍
曝小米16標準版配備JN5浮動長焦 與前代相同 - 天天要聞

曝小米16標準版配備JN5浮動長焦 與前代相同

【太平洋科技快訊】近日,據相關爆料透露,小米16標準版除了常規的硬體配置提升和電池容量增大外,還將配備一顆5000萬像素的JN5浮動長焦鏡頭,與小米15標準版所使用的鏡頭型號相同。據悉,浮動長焦技術通過改變鏡頭組之間的距離來實現變焦,相比傳統的定焦鏡頭,它能在保持畫質的同時提供更靈活的變焦範圍,特別適合拍攝人...
英特爾酷睿9 270H跑分曝光 單線程高i5-14500HX約14% - 天天要聞

英特爾酷睿9 270H跑分曝光 單線程高i5-14500HX約14%

【太平洋科技快訊】近日,Intel最新Raptor Lake Refresh系列的酷睿9 270H性能測試成績首次曝光。在PassMark測試中,其單線程得分高達4125分,而對比的i5-14500HX平均得分僅為3619分,領先幅度約14%。而在多線程測試中,兩款處理器的表現則相當,難分高下,與i5-14500HX處於同一水平。從核心配置來看,酷睿9 27
余承東曬華為Pura80 Pro系列新機 展示其視頻拍攝能力 - 天天要聞

余承東曬華為Pura80 Pro系列新機 展示其視頻拍攝能力

【太平洋科技快訊】6月9日,華為終端發文為Pura 80系列進行預熱。據預熱信息顯示,在1X焦段下,Pura 80系列的主攝能夠清晰捕捉大光比環境中的亮部和暗部細節,無論是過亮還是過暗的區域,都能呈現豐富層次,預示著其在舞台、演唱會等光線複雜的場景下的視頻拍攝表現將大幅提升。此外,華為終端 BG CEO 余承東今日還通過社交...
曝iOS26將引入液態玻璃設計 為20周年紀念版iPhone鋪路 - 天天要聞

曝iOS26將引入液態玻璃設計 為20周年紀念版iPhone鋪路

【太平洋科技快訊】近日,相關爆料透露,蘋果計劃在2025年的全球開發者大會(WWDC)上,隨iOS 26操作系統一同推出一項名為「液態玻璃」的全新設計語言。消息源認為,這項設計革新很可能是為了兩年後,即2027年9月即將發布的iPhone 20周年紀念特別版機型所做的鋪墊。據悉,「液態玻璃」設計理念借鑒了蘋果Vision Pro頭顯操作系...