LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4

2025年06月17日10:23:17 科技 1850

機器之心報道

編輯:杜偉

在開源模型領域,DeepSeek 又帶來了驚喜。

上個月 28 號,DeepSeek 來了波小更新,其 R1 推理模型升級到了最新版本(0528),並公開了模型及權重。

這一次,R1-0528 進一步改進了基準測試性能,提升了前端功能,減少了幻覺,支持 JSON 輸出和函數調用。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

今天,業界知名、但近期也陷入爭議(曾被指出對 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基準測試平台 LMArena 公布了最新的性能排行榜,其中 DeepSeek-R1(0528)的成績尤為引人矚目

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

其中,在文本基準測試(Text)中,DeepSeek-R1(0528)整體排名第 6,在開放模型中排名第一。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

具體到以下細分領域:

  • 在硬提示詞(Hard Prompt)測試中排名第 4
  • 在編程(Coding)測試中排名第 2
  • 在數學(Math)測試中排名第 5
  • 在創意性寫作(Creative Writing)測試中排名第 6
  • 在指令遵循(Intruction Fellowing)測試中排名第 9
  • 在更長查詢(Longer Query)測試中排名第 8
  • 在多輪(Multi-Turn)測試中排名第 7

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

此外,在 WebDev Arena 平台上,DeepSeek-R1(0528)與 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等閉源大模型並列第一,在分數上更是超過了 Claude Opus 4。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

WebDev Arena 是 LMArena 團隊開發的實時 AI 編程競賽平台,讓各家大語言模型進行網頁開發挑戰,衡量的是人類對模型構建美觀且功能強大的 Web 應用能力的偏好。

DeepSeek-R1(0528)表現出來的強大性能激起了更多人使用的慾望。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

還有人表示,鑒於 Claude 長期以來一直是 AI 編程領域的基準,如今 DeepSeek-R1(0528)在性能上與 Claude Opus 相當,這是一個里程碑時刻,也是開源 AI 的關鍵時刻。

DeepSeek-R1(0528)在完全開放的 MIT 協議下提供了領先的性能,並能與最好的閉源模型媲美。雖然這一突破在 Web 開發中最為明顯,但其影響可能延伸到更廣泛的編程領域。

不過,原始性能並不能定義現實世界的表現。雖然 DeepSeek-R1(0528)在技術能力上可能與 Claude 相當,但其是否可以在日常工作流程中提供媲美 Claude 的用戶體驗,這些需要更多的實際驗證。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

高強度使用過 DeepSeek-R1(0528)的小夥伴,可以在評論區留言,談一談自己的體驗感受。

參考鏈接:

https://lmarena.ai/leaderboard/text

https://x.com/lmarena_ai/status/1934650639906197871

科技分類資訊推薦

iFixit 實測蘋果 iPad 自助維修服務:拆卸屏幕就需 32 個步驟 - 天天要聞

iFixit 實測蘋果 iPad 自助維修服務:拆卸屏幕就需 32 個步驟

IT之家 6 月 17 日消息,蘋果 iPad 上月底加入自助維修服務,允許用戶自行維修設備,但根據維修指南,這一過程並不簡單。據 iFixit 的報告,僅從 iPad Pro 上取下屏幕就需要 32 個步驟,這一過程需要特殊工具來分離將所有部件固定在一起的膠水、膠帶和螺絲。維修過程不僅需要拆卸零部件,還需斷開感測器、攝像頭、屏蔽層和...
不足2000元,迷你電腦還真有點好東西,一款i3主機最低1200元 - 天天要聞

不足2000元,迷你電腦還真有點好東西,一款i3主機最低1200元

最近台式機市場有個現象,就是迷你電腦,漸漸淪為老CPU再次登場,發揮餘熱的舞台。主要是由於這個品類用戶對於性能要求是不太高的,有一定性能表現就行了,所以十分適合老款CPU。這次,我們發現2000元內就有很多性價比不錯的迷你電腦,這次來看看三款,都很有特點。第一款是聯想異能者D80,原價1499元,補貼後為1200元。這...
AI 硬體要真正走進生活,需要新的「引擎」 - 天天要聞

AI 硬體要真正走進生活,需要新的「引擎」

2025 年被視為 AI Agent 元年,包括 OpenAI 、Google、微軟在內的科技公司都提出 Agent 將開始加入勞動力大軍,甚至改變工作形態。與此同時,Google 、OpenAI 這些以軟體為主要產品的公司也紛紛開始推出更
龍芯聯合北航打造衛星數據「中國方案」,賦能低空經濟蓄力「起飛」 - 天天要聞

龍芯聯合北航打造衛星數據「中國方案」,賦能低空經濟蓄力「起飛」

作為國家經濟轉型與戰略性新興產業的核心賽道,低空經濟正成為培育新質生產力的重要增長極。近日,龍芯中科攜手北京航空航天大學突破「煙囪型」行業壁壘,推出國內首個基於龍芯的跨衛星即時數據服務系統,可為低空經濟、智慧海洋、應急管理等領域構建起複雜環境下穩定可靠的導航定位與通信覆蓋保障體系,其輻射力更延伸至沿線國...
2025Q1 中國大陸 PC 與平板電腦市場增長: 華為表現亮眼 - 天天要聞

2025Q1 中國大陸 PC 與平板電腦市場增長: 華為表現亮眼

數碼 I 渝碼科技根據Canalys 最新數據,2025年第一季度,中國大陸地區的個人電腦(PC)市場和平板電腦市場均呈現顯著增長態勢。其中,PC市場(包括筆記本電腦和台式機)出貨量達到 890 萬台,同比增長 12%;平板電腦市場出貨量達
三星電子尋求與中國企業合作 降低OLED面板成本 - 天天要聞

三星電子尋求與中國企業合作 降低OLED面板成本

【TechWeb】韓國媒體最新報道指出,三星電子正在探討與中國多家企業合作,目的是為了採購OLED面板中使用的特定材料。過去,三星電子為了規避不必要的成本增加和技術泄露的風險,一直主要從韓國本土以及美國和日本的供應商那裡採購材料,而較少與中國企業合作。然而,這一情況可能發生變化。隨著Exynos 2600處理器所採用的2...
Q1大陸市場PC出貨量逆勢增長12% 聯想華為位列前二 - 天天要聞

Q1大陸市場PC出貨量逆勢增長12% 聯想華為位列前二

【CNMO科技消息】近日,機構發布的數據顯示,2025年第一季度中國大陸PC市場出貨量達890萬台,同比增長12%。聯想筆記本在PC細分市場中,消費市場與商用市場呈現出不同的發展態勢。受益於政府補貼,消費市場的筆記本出貨量同比大幅增長20%,展現出強勁的增長趨勢。商用市場則相對穩定,大型企業的PC採購量保持不變,而中小企...
活力中國調研行|堅持創新引領 京車智駕領跑賽道 - 天天要聞

活力中國調研行|堅持創新引領 京車智駕領跑賽道

2025年是「十四五」規劃收官之年。「十四五」時期,我國經濟社會發展取得顯著成就,活力無限的發展圖景鼓舞人心、提振信心。首都北京與祖國同頻,在高質量發展的浩蕩征途中一馬當先、走在前列,京華大地一派欣欣向榮。