LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4

機器之心報道

編輯:杜偉

在開源模型領域,DeepSeek 又帶來了驚喜。

上個月 28 號,DeepSeek 來了波小更新,其 R1 推理模型升級到了最新版本(0528),並公開了模型及權重。

這一次,R1-0528 進一步改進了基準測試性能,提升了前端功能,減少了幻覺,支持 JSON 輸出和函數調用。

今天,業界知名、但近期也陷入爭議(曾被指出對 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基準測試平台 LMArena 公布了最新的性能排行榜,其中 DeepSeek-R1(0528)的成績尤為引人矚目

其中,在文本基準測試(Text)中,DeepSeek-R1(0528)整體排名第 6,在開放模型中排名第一。

具體到以下細分領域:

  • 在硬提示詞(Hard Prompt)測試中排名第 4
  • 在編程(Coding)測試中排名第 2
  • 在數學(Math)測試中排名第 5
  • 在創意性寫作(Creative Writing)測試中排名第 6
  • 在指令遵循(Intruction Fellowing)測試中排名第 9
  • 在更長查詢(Longer Query)測試中排名第 8
  • 在多輪(Multi-Turn)測試中排名第 7

此外,在 WebDev Arena 平台上,DeepSeek-R1(0528)與 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等閉源大模型並列第一,在分數上更是超過了 Claude Opus 4。

WebDev Arena 是 LMArena 團隊開發的實時 AI 編程競賽平台,讓各家大語言模型進行網頁開發挑戰,衡量的是人類對模型構建美觀且功能強大的 Web 應用能力的偏好。

DeepSeek-R1(0528)表現出來的強大性能激起了更多人使用的慾望。

還有人表示,鑒於 Claude 長期以來一直是 AI 編程領域的基準,如今 DeepSeek-R1(0528)在性能上與 Claude Opus 相當,這是一個里程碑時刻,也是開源 AI 的關鍵時刻。

DeepSeek-R1(0528)在完全開放的 MIT 協議下提供了領先的性能,並能與最好的閉源模型媲美。雖然這一突破在 Web 開發中最為明顯,但其影響可能延伸到更廣泛的編程領域。

不過,原始性能並不能定義現實世界的表現。雖然 DeepSeek-R1(0528)在技術能力上可能與 Claude 相當,但其是否可以在日常工作流程中提供媲美 Claude 的用戶體驗,這些需要更多的實際驗證。

高強度使用過 DeepSeek-R1(0528)的小夥伴,可以在評論區留言,談一談自己的體驗感受。

參考鏈接:

https://lmarena.ai/leaderboard/text

https://x.com/lmarena_ai/status/1934650639906197871