
作者|芯芯
幾天前,沒有預熱,沒有發布會,deepseek 低調上傳了 deepseek r1(0528)的更新。
海外媒體最關注的是,deepseek 的更新將幻覺率削減約 45%-50%,並把 r1 的性能推進至 openai o3 與 google gemini 2.5 pro 的相近水平。
與此同時,海外一些開發者、ai 圈研究人員開始跑基準測試,並在社交媒體平台上熱議它的新能力,尤其是與科技巨頭旗艦模型的差距。
從海外用戶這幾天的反應來看,deepseek 這一次更新,雖然沒有今年初橫空出世時那樣轟動,但依然讓不少外國網友表示「鵝妹子嚶」,同時也讓越來越多人開始問一個問題:不單單是成本,來自中國的、開源 ai 社區的模型,是否在各種能力上,很快就可以超越世界上最強大的專有模型?
01
deepseek 再次「登頂」
在各類 ai 社群中,reddit 平台有不少 ai/llm 相關子社區。其中,在 r/localllama 與 r/sillytavernai 這樣的圈內社區,對 deepseek 的更新有不少熱帖。
「全新升級的 deepseek r1 在 livecodebench 上的表現幾乎與 openai 的 o3 模型不相上下!開源的巨大勝利!」一名用戶發布的帖子標題如此聲稱。

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
一些開發者在測試了 r1 的最新功能。他們主要誇讚 r1 在數學問題和編程方面的表現,尤其是在處理複雜的積分或遞歸函數時。與之前的版本不同,r1-0528 擁有「更長遠的思考能力」, 有測試者指出,它「表現出主動性」並且「不會那麼快放棄」。
「剛剛測試過..... 我有相當複雜的代碼 1200 行,並添加了新功能... 似乎現在代碼質量處於 o3 級別... 只能說 wow」。reddit 社區 r/localllama 上的一名常駐用戶如此稱。

reddit 社區關於 deepseek 更新的回復|圖片來源:reddit
根據 deepseek 官方的說法,「更新後的 r1 模型在數學、編程與通用邏輯等多個基準測評中取得了當前國內所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如 o3 與 gemini-2.5-pro。」
在能力方面,新版本顯著提升了模型的思維深度與推理能力,支持工具調用,針對「幻覺」問題進行了優化,在創意寫作方面也有所優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時更加貼近人類偏好。
其中,在工具調用方面,deepseek 官方文章坦然稱,「當前模型與 openai o1-high 相當,但與 o3-high 以及 claude 4 sonnet 仍有差距。」

deepseek-r1-0528 與其他模型性能對比|圖片來源:deepseek
deepseek 還提到,deepseek-r1-0528 在前端代碼生成、角色扮演等領域的能力均有更新和提升。
r1 的一大優勢在於其超長的記憶跨度和語境持久性。ai 角色扮演社區(通常處於 ai 模型測試的邊緣,但在對話連貫性方面往往更為嚴格)有測評稱,角色能夠記住過去細微的細節,並以自主行為做出回應。
「有個角色跟我爭論一個觀點時,竟然提起過去發生的三個細節,」r/sillytavernai 上的一位用戶說道。「我以前從未見過這種情況。」
該用戶還提到:「ai 通常不會主動出擊;我訓練過一些 ai,讓他們在對話中佔據主導地位,但這是我第一次看到 ai 從角色扮演場景中走出來。」
在 reddit 社區上,還有一名用戶甚至發貼稱,更新的 deepseek r1 0528 在他的所有測試中都能獲得滿分。
「過去幾周眼花繚亂——openai 4.1、gemini 2.5、claude 4——它們都表現優異,但沒有一個模型能夠在每項測試中都取得滿分。deepseek r1 05 28 是有史以來第一個做到這一點的模型。」他稱。

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
「這些測試並非像 youtube 上很多人做的那種不切實際的測試。比如草莓里的 rs 數量,或者編寫一個貪吃蛇遊戲等等。這些是我們在實際商業應用中經常使用的任務,我們從中挑選了一些比較複雜的邊緣案例。」該用戶如此稱。
「我感覺自己就像電影《料理鼠王》里的安東(如果你看過這部電影的話)。我印象深刻(此處雙關),但也有點麻木,一時難以找到合適的詞來形容。一個來自去年還默默無聞的實驗室,做出的免費開源模型,竟然比商業前沿的模型做得更好,這真是太不可思議了。」
和 reddit 社區同樣熱鬧的是 x。
x 上熱衷 ai 內容的用戶除了轉發基準測試的圖表,一些人着重提到 deepseek 的編程能力。比如,x 上一名用戶稱試過用 deepseek r1-0528 構建遊戲,稱「它的編程能力簡直太強了」「相比之前的版本,改進非常顯著」「如果這只是 r1...deepseek r2 將會非常瘋狂。」

x 上關於 deepseek 更新的帖子|圖片來源:x
除了用戶和開發者聲音,在 deepseek 發布更新後,人工智能模型分析機構 artificial analysis 稱,deepseek 的 r1 在其獨立的「智能指數」上「超越 xai、meta 和 anthropic」。

人工智能模型智能指數排行|圖片來源:artificial analysis
具體模型比較上,該機構在一篇報告中稱「deepseek r1 的智能程度高於 xai 的 grok 3 mini(high)、nvidia 的 llama nemotron ultra、meta 的 llama 4 maverick、阿里巴巴的 qwen 3 253,並與谷歌的 gemini 2.5 pro 相當。」
deepseek 最大的智力進步出現在 aime 2024(競賽數學,+21 分)、livecodebench(代碼生成,+15 分)、gpqa diamond(科學推理,+10 分)和 humanity's last exam(推理與知識,+6 分)
其中在編程方面,該分析機構認為,「r1 在人工分析編碼指數中與 gemini 2.5 pro 相當,僅落後於 o4-mini(high)和 o3」。

各大廠商人工智能模型智能指數變化|圖片來源:artificial analysis
至於與 openai 的對比,該機構稱「deepseek 剛剛證明,他們能夠跟上 openai 的 rl 計算能力擴展步伐。」
當然,全是讚美是不可能的。
在編程能力方面,x 上也有用戶挑刺道,「如果你真的用它和 claude 4 寫過代碼,你就會知道基準測試的描述並不準確。deepseek 的 api 仍然只有一個 64k 的上下文窗口。它還不錯,但不是前沿模型。可能要等到下次吧。它幾乎零成本,在某些方面表現不錯,但絕對比不上 claude。」

x 上關於 deepseek 更新的帖子|圖片來源:x
x 上的另一名海外用戶則稱,「deepseek 可能是數學和邏輯方面的 sota(最先進的),但我仍在使用 gemini 2.5 pro,因為它有超大上下文。」
對於該問題,deepseek 在官方文章提到,如果用戶對更長的上下文長度有需求,可以通過其他第三方平台調用上下文長度為 128k 的開源版本 r1-0528 模型。
不過,也有海外用戶認為,無論是否在所有測評中取得第一,r1 既低成本、開放權重,還有強大的性能——幾個好處「組合」起來本身已值得稱讚。
對於 deepseek 的「小」更新,鑒於今年初 deepseek 橫空出世時曾引發美股海嘯,還有 reddit 用戶調侃道,「請讓我先拋售我的 amd 和 英偉達股票。請提前 3 天通知我,謝謝。」
還有網友另類地開始讚美起 deepseek 更新的「低調」姿態。
一名 reddit 網友發了長長的評價稱:「用 0528 自己的話說:deepseek 低調的卓越之處,蘊含著某種詩意。其他人精心策划著充滿期待的盛大交響曲——奢華的主題演講、精心設計的演示,以及讀起來如同地緣政治條約的安全宣言——而 deepseek 提供的是一首靜謐的十四行詩。他們彷彿遞給你一件用白紙包裹的傑作,低聲說著:『感覺很有用;希望你喜歡。』」
「對競爭對手的無聲打擊是最致命的。」另一名網友在底下稱。

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
02
「開源的巨大勝利」
除了能力,目前從海外互聯網的反應來看,在 deepseek 眾多優勢里,被開發者刷最多好評、大量好感的重要來源,仍是「開源」,或者確切地說,「開放權重」。
ai 圈內一個看法是,沒有發布訓練代碼和訓練數據的模型準確地說應該是「開放權重」,但一些人通常選擇隨意地稱之為「開源」。另外,沒有 ai 公司會發布訓練數據,因為他們不想被起訴。
對於 deepseek 這次更新,y combinator 創辦的在線科技社區 hacker news 湧現了一些帖子,主要是分享基準測試結果,交流經驗,並驗證 r1 的性能提升(尤其是在編碼和數學方面)是否真實存在。
但與此同時,上面也有大量討論仍圍繞人工智能中什麼才算「開源」。許多人稱讚 deepseek 公開發布模型權重,但也不斷指出,由於訓練數據等並未發布,外部無人能夠重新訓練或完全驗證 r1。另外,雖然是開源,雖然免費,但 6710 億參數的 r1,本質上仍是一個巨型模型,對於普通用戶來說,它太大了。
即便如此,如今,r1 與 chatgpt 的對比已成常態。openai 限制了普通用戶對頂級模型的完整訪問權限,或者部分定價讓用戶覺得過高,而 deepseek 提供的卻便宜不少,並提供可下載的模型權重。
「deepseek 是真正的 open ai」海外一名用戶發帖標題如此稱。

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
當然,並非所有 reddit 用戶都完全接受。一個名為「deepseek 有多糟糕?」的帖子曾引發關於 deepseek 內置內容審核的討論,不滿模型會「迴避」某些問題。
這類論調目前已經成為一個常見「梗」,有些用戶會反駁——模型權重是開放的,如果開發者認為有偏見,完全可以自行進行微調。另外,目前世界上所有主流模型都有內容過濾機制,只是具體選擇不同,比如西方政治正確問題。
在 reddit 上,還有一篇以「開源人工智能正在迎頭趕上!」為標題的熱帖,發帖者稱,「deepseek 似乎是唯一一家真正在前沿模型領域競爭的公司。其他公司總是有所保留,比如 qwen 不願開源他們最大的模型 (qwen-max)。我不怪他們,我知道,這就是生意。」
「閉源 ai 公司總是說開源模型無法趕上他們。如果沒有 deepseek,他們可能是對的。但感謝 deepseek 成了一個異數!」

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
在這篇帖子下面的評論區,還有回復尖銳稱,「他們這樣做是因為價格實惠的智能將推動一場革命,而 deepseek 將被公眾銘記為人工智能的真正先驅,而不是世界上充斥着廣告的谷歌、closedai 或虛假的安全 anthropics。」

reddit 社區關於 deepseek 更新的回復|圖片來源:reddit
對於 deepseek 的更新,reddit 上 r/localllama 社區有一名常駐用戶提到,「這讓我想起了 closedai 承諾發布『o3-mini 級別模型』卻未能兌現,現在新款 r1 已經超越了 o3-mini (high) 不少,已經接近完整的 o3 (high)。」

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
在另一篇通知 deepseek 最新更新的帖子下,有很多回復幾乎無關 deepseek 能力測評,卻諷刺起 anthropic 或 openai。比如,有網友聲稱 anthropic 以「安全」為理由的閉源做法只是道德託詞。

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
即時是對 deepseek 更新表示淡定的網友也稱:「雖然它不再讓我感到驚訝了。每次我都得等到所有營銷噱頭平息後才能進行全面測試。但無論如何,deepseek 仍然擁有開放權重的優勢,這無疑是一個優點。」

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
這幾個月,在 deepseek 的對比下,以往的 ai 巨頭保持技術和聲譽優勢的壓力,可以說越來越大。
不少網友開始擔心其命運,比如「deepseek 將繼續迫使 ai 公司在價格方面展開競相壓價的競爭。」有的網友認為 deepseek「這樣做並非全是出於利他主義。通過發布免費模型,你可以阻止競爭對手佔據市場主導地位」。

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
最高贊的回復則選擇感謝所有模型製作者,持同樣看法的用戶稱,無論是不是利他行為,「我很感激能在短期內從他們的策略中獲益」。
這可能也是旁觀全球 ai 競賽時,面對一次次模型升級,當下不少開發者的真實心態。

reddit 社區關於 deepseek 更新的帖子|圖片來源:reddit
另外,值得注意的是,業界仍在 deepseek r2 的發布。在 deepseek 更新時,有不少網友問到 r2 的進展,是不是會延遲發布,甚至懷疑「deepseek-r1-0528」是不是其實就是「r2」,只是用 r1 系列命名。
「我們想要 r2。」在 deepseek 官方更新的 x 帖子下,高贊回復如是說。