梁文鋒不著急 - 科技| 天天要聞

2025年06月01日15:02:03 科技 1502

同行紛紛押注Agent，梁文鋒仍保持深度求索AGI的定力。

文｜《中國企業家》記者閆俊文

編輯｜張曉迪

頭圖來源｜視覺中國

5月28日下午6時，DeepSeek在用戶群發布公告，「DeepSeek-R1模型已完成小版本試升級，歡迎前往官方網頁、APP、小程序進行測試，API介面和使用方式保持不變。」

《中國企業家》查詢DeepSeek服務狀態發現，5月28日晚間10點33分，DeepSeek網頁及APP的API服務出現了5分鐘的「不可用」狀態，這是DeepSeek API服務在最近兩個月里少有的卡殼現象。

緊接著，5月29日，DeepSeek就開源了R1最新0528版本，這是R1自1月20日正式推出，時隔128天後，首次迎來的一次更新。

DeepSeek稱此次更新為「小版本升級」，至於外界更為期待的R2模型，官方並未給出時間表。一位創業者告訴《中國企業家》，R1是DeepSeek-V3模型能力的復現，R2模型可能要等到V4模型研發成功之後了。V3的上次升級是在今年的3月24日，V4目前尚未有推出時間表。

5月29日晚間，DeepSeek在官方公眾號發表文章《DeepSeek-R1更新，思考更深，推理更強》，根據文章給出的測試結果，更新後的R1-0528，模型能力增強。不過，在工具調用等能力方面仍有進化空間。文章解釋稱，此次更新的DeepSeek-R1-0528仍然使用了2024年12月發布的DeepSeek-V3 Base模型作為基座，更新的重點是對模型進行了後訓練，從而提升了模型的思維深度與推理能力。

與預訓練對應，後訓練是大模型訓練的另一個階段，這是當下大模型競賽中的一個熱度「賽點」。

一位投資人告訴《中國企業家》，國內幾家「六小虎」已經放棄了基座大模型的訓練，但並不是放棄了大模型，而是放棄預訓練，轉而去加強後訓練與微調的投入，以便讓模型落地應用。

「大模型領域你追我趕，領先周期可能只有3到6個月」，獵豹移動董事長兼CEO、獵戶星空董事長傅盛感慨大模型領域的激烈競爭，「大模型做成了海鮮生意，一個好的模型出來，大概3個月就會過期，因為別人總會上來，此消彼長。」

當前，大模型本身難以商業化已成國內外投資機構、科技企業的共識，今年以來，無論是聯想、騰訊、阿里亦或美國矽谷模型大佬OpenAI、Anthropic、谷歌，以及亞馬遜、微軟等，都紛紛斥資押注AI Agent。

當外界已把目光轉移嚮應用時，梁文鋒和他的團隊仍舊保持對模型本身深度求索的定力。

此次R1更新後，騰訊部署動作迅速。5月29日晚間，騰訊發布消息，稱騰訊元寶、ima、搜狗輸入法、QQ瀏覽器等多款產品率先接入DeepSeek- R1-0528。

0528版本思考更深，推理更強

根據DeepSeek官網給出的測試結果，此次升級後的R1-0528模型能力猛增，成功超越目前國內最強模型阿里Qwen3，並且在數學、編程等能力上接近其他國際頂尖模型，如OpenAI最新的o3與谷歌最新的Gemini-2.5-Pro。

相較於舊版R1，新版模型在複雜推理任務中的思考更深、效果更強的原因是耗費的token數量增多，舊版模型平均每題使用12K tokens，而新版模型平均每題使用23K tokens。

來源：AI生成

這符合英偉達CEO黃仁勛的預估，今年3月，英偉達CEO黃仁勛在GTC大會上預測，Agentic AI的崛起，將推動算力需求暴增至少100倍。

此外，此次DeepSeek蒸餾了DeepSeek-R1-0528的思維鏈後訓練Qwen3-8B Base，得到了DeepSeek-R1-0528-Qwen3-8B。該8B模型在數學測試AIME 2024中僅次於DeepSeek-R1-0528，超越Qwen3-8B，準確率增加10%，與Qwen3-235B相當。

規模少了30倍，但準確率增加了10%，關鍵要素是DeepSeek-R1-0528的思維鏈，官方稱，該思維鏈對於學術界推理模型的研究和工業界針對小模型的開發將具有重要意義。

強化後訓練後，模型的幻覺率也降低了。據DeepSeek官方稱，DeepSeek-R1-0528與舊版相比，在改寫潤色、總結摘要、閱讀理解等場景中，幻覺率降低45%～50%左右。

在此之前，R1模型讓業內詬病最多的就是其幻覺率。國外有一家名為Vectara的機構曾發布了一個大模型幻覺排行榜，該榜將模型幻覺數值從低到高排序，谷歌的Gemini和OpenAI的o3模型幻覺率最低，而Deepseek-R1排在第90名，幻覺率高達14.3%。

上下文（context）方面，此次R1-0528的上下文長度與舊版本保持一致，仍為64K，尚落後於OpenAI、谷歌，以及月之暗面等國內公司最新模型的128k長度。

2023年11月，月之暗面創始人楊植麟曾說過，模型參數數量決定計算複雜度，而上下文長度決定模型內存大小。

更大的上下文規模，意味著模型記憶能力的提升，是工具產品化的重要標準，這對於模型落地Agent，釋放能力具有重要意義。

喧鬧中的定力

梁文鋒小步快跑的同時，美國科技公司對DeepSeek的看法也正在走向分化。2月初，DeepSeek發布R1模型帶來的那場衝擊潮，正在逐漸退散，矽谷創業者和大公司的CEO們也已逐漸找回自信。

和DeepSeek測試更新版本前後腳，美國當地時間5月28日，英偉達公布最新季度財報，在財報會上，英偉達CEO黃仁勛稱讚「DeepSeek-R1如ChatGPT般越思考越聰明。」

財報顯示，一季度英偉達實現營收441億美元，同比增69%，歸母凈利188億美元，同比增26%。到5月29日開盤，英偉達股價一度盤中上漲11%，最終收盤139美元，微漲3%。

來源：AI生成

這次更新已和R1模型發布時對英偉達股價造成的重挫不一樣了。目前，英偉達市值約為3.3萬億美元，已收復了在2月失去的萬億美元市值。Agentic AI時代的到來，又讓英偉達看到了廣闊的市場前景。

除了算力領域，OpenAI、Anthropic也在模型層面奮力趕上。

5月20日，OpenAI CEO山姆·阿爾特曼自信地說：「我不認為DeepSeek找到了比OpenAI更高效驅動AI的方法，OpenAI每年在效率方面取得不可思議的進步。」

Anthropic的一位員工在5月23日接受媒體採訪時說，「DeepSeek發布模型的時間比Claude 3 Sonnet晚9個月，如果我們現在重新訓練相同的模型，或者與DeepSeek同期訓練，我們也可以用500萬美元或者其他人宣傳的金額，來完成訓練，DeepSeek達到了行業頂尖水平，但並未超越，它只是利用了效率提升的紅利。」

在5月29日的官方發文中，DeepSeek承認，在某些方面，R1-0528仍與OpenAI和Anthropic的最新模型有差距，比如工具調用方面，官方介紹，「當前模型Tau-Bench測評成績為airline 53.5%/retail 63.9%，與OpenAI o1-high相當，但與o3-High以及Claude 4 Sonnet仍有差距。」

一位投資人預估，DeepSeek與國外公開的先進模型之間的差距可能在2個月到3個月，但實際差距可能還要多一些，但沒有代差的差距。

整個AI領域的競爭仍在持續，但相比此前圍繞底座模型的競爭，已有所不同。

整個5月，美國科技界頗為熱鬧，先是微軟舉辦了Build 2025大會，緊接著谷歌舉辦了I/O大會，Anthropic發布Claude 4系列模型。他們發布會的重點都與Agent有關。

谷歌提出Agent的三個特點——個性化、主動性以及強大功能。微軟提出Agentic Web，並稱，這是一個和移動、雲等平台轉變期類似的巨大變革。Anthropic提出了Agent的四個協議：一是通過API連接模型上下文協議（MCP）；二是Claude的網頁搜索功能；三是開放文件API介面；四是提示詞緩存。

「現在大模型的進展已經吸引不了一級市場投資人的錢了，必須講述C端應用的故事，比如Agent。」上述投資人說。

Agent是強化學習的產品體現。近期，一位OpenAI的科學家在AI Ascent 2025中表示：「我們所做的模型訓練類型是RL（強化學習），我們未來可能會被強化學習計算資源完全支配。」

儘管海外科技巨頭和國內的投資機構都把目光移到了Agent身上，但DeepSeek仍專註模型本身，目前仍在AGI征程上「深度求索」。

2024年7月，發布DeepSeek-V2後，梁文鋒在接受《暗涌》採訪時曾說：「我們認為當下最重要的，是參與全球科技創新。長期以來，中國企業習慣於利用海外的技術創新，並通過應用層面進行商業化，但這種模式是不可持續的。這一次，我們的目標不是快速盈利，而是推動技術前沿的發展，從根本上促進整個生態的成長。」

彼時關於應用的話題，梁文鋒說：「從長遠來看，我們希望建立一個生態系統，讓行業直接使用我們的技術和成果，其他公司基於我們的模型開發B2B/B2C服務，而我們專註於基礎研究。如果產業鏈完整，我們無需親自做應用。當然，如果有必要，我們完全有能力去做，但研究和創新始終是我們的核心優先順序。」

一位接近DeepSeek團隊的投資人告訴《中國企業家》，DeepSeek團隊約130人，大多是2002年、2003年後出生的國內高校畢業生，2000年以前出生的在團隊內都算是「老人」。團隊組織架構分兩層，決策中心是梁文鋒本人，30多個核心成員直接向其彙報，100多個數據工程師負責具體執行。他們的特點是年輕、有激情、熱愛技術。

2025年前，大模型創業潮起的最初幾年，初創公司融資後，紛紛到美國谷歌高價挖人才，從目前行業呈現的效果來看，這種做法並未達到預期。