LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4

分類：科技

瀏覽數：1850

2025-06-17

機器之心報道

編輯：杜偉

在開源模型領域，DeepSeek 又帶來了驚喜。

上個月 28 號，DeepSeek 來了波小更新，其 R1 推理模型升級到了最新版本（0528），並公開了模型及權重。

這一次，R1-0528 進一步改進了基準測試性能，提升了前端功能，減少了幻覺，支持 JSON 輸出和函數調用。

今天，業界知名、但近期也陷入爭議（曾被指出對 OpenAI、谷歌及 Meta 的大模型存在偏袒）的大模型公共基準測試平台 LMArena 公布了最新的性能排行榜，其中 DeepSeek-R1（0528）的成績尤為引人矚目。

其中，在文本基準測試（Text）中，DeepSeek-R1（0528）整體排名第 6，在開放模型中排名第一。

具體到以下細分領域：

此外，在 WebDev Arena 平台上，DeepSeek-R1（0528）與 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等閉源大模型並列第一，在分數上更是超過了 Claude Opus 4。

WebDev Arena 是 LMArena 團隊開發的實時 AI 編程競賽平台，讓各家大語言模型進行網頁開發挑戰，衡量的是人類對模型構建美觀且功能強大的 Web 應用能力的偏好。

DeepSeek-R1（0528）表現出來的強大性能激起了更多人使用的慾望。

還有人表示，鑒於 Claude 長期以來一直是 AI 編程領域的基準，如今 DeepSeek-R1（0528）在性能上與 Claude Opus 相當，這是一個里程碑時刻，也是開源 AI 的關鍵時刻。

DeepSeek-R1（0528）在完全開放的 MIT 協議下提供了領先的性能，並能與最好的閉源模型媲美。雖然這一突破在 Web 開發中最為明顯，但其影響可能延伸到更廣泛的編程領域。

不過，原始性能並不能定義現實世界的表現。雖然 DeepSeek-R1（0528）在技術能力上可能與 Claude 相當，但其是否可以在日常工作流程中提供媲美 Claude 的用戶體驗，這些需要更多的實際驗證。

高強度使用過 DeepSeek-R1（0528）的小夥伴，可以在評論區留言，談一談自己的體驗感受。

參考鏈接：

https://lmarena.ai/leaderboard/text

https://x.com/lmarena_ai/status/1934650639906197871

科技分類資訊推薦