LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4

2025年06月17日10:23:17 科技 1850

機器之心報道

編輯:杜偉

在開源模型領域,DeepSeek 又帶來了驚喜。

上個月 28 號,DeepSeek 來了波小更新,其 R1 推理模型升級到了最新版本(0528),並公開了模型及權重。

這一次,R1-0528 進一步改進了基準測試性能,提升了前端功能,減少了幻覺,支持 JSON 輸出和函數調用。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

今天,業界知名、但近期也陷入爭議(曾被指出對 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基準測試平台 LMArena 公布了最新的性能排行榜,其中 DeepSeek-R1(0528)的成績尤為引人矚目

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

其中,在文本基準測試(Text)中,DeepSeek-R1(0528)整體排名第 6,在開放模型中排名第一。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

具體到以下細分領域:

  • 在硬提示詞(Hard Prompt)測試中排名第 4
  • 在編程(Coding)測試中排名第 2
  • 在數學(Math)測試中排名第 5
  • 在創意性寫作(Creative Writing)測試中排名第 6
  • 在指令遵循(Intruction Fellowing)測試中排名第 9
  • 在更長查詢(Longer Query)測試中排名第 8
  • 在多輪(Multi-Turn)測試中排名第 7

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

此外,在 WebDev Arena 平台上,DeepSeek-R1(0528)與 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等閉源大模型並列第一,在分數上更是超過了 Claude Opus 4。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

WebDev Arena 是 LMArena 團隊開發的實時 AI 編程競賽平台,讓各家大語言模型進行網頁開發挑戰,衡量的是人類對模型構建美觀且功能強大的 Web 應用能力的偏好。

DeepSeek-R1(0528)表現出來的強大性能激起了更多人使用的慾望。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

還有人表示,鑒於 Claude 長期以來一直是 AI 編程領域的基準,如今 DeepSeek-R1(0528)在性能上與 Claude Opus 相當,這是一個里程碑時刻,也是開源 AI 的關鍵時刻。

DeepSeek-R1(0528)在完全開放的 MIT 協議下提供了領先的性能,並能與最好的閉源模型媲美。雖然這一突破在 Web 開發中最為明顯,但其影響可能延伸到更廣泛的編程領域。

不過,原始性能並不能定義現實世界的表現。雖然 DeepSeek-R1(0528)在技術能力上可能與 Claude 相當,但其是否可以在日常工作流程中提供媲美 Claude 的用戶體驗,這些需要更多的實際驗證。

LMArena模型榜單出爐!DeepSeek-R1網頁編程能力趕超了Claude Opus 4 - 天天要聞

高強度使用過 DeepSeek-R1(0528)的小夥伴,可以在評論區留言,談一談自己的體驗感受。

參考鏈接:

https://lmarena.ai/leaderboard/text

https://x.com/lmarena_ai/status/1934650639906197871

科技分類資訊推薦

今晚8點,京東618開啟「最後28小時」 - 天天要聞

今晚8點,京東618開啟「最後28小時」

6月17日晚8點,2025京東618即將邁入「最後28小時」,這也意味着今年京東618迎來優惠力度最大、價格最划算的時段。每人每天可領超6180元補貼,「補上加補」覆蓋吃喝玩樂在京東618「最後28小時」期間,消費者購買手機電腦數碼、家電家居等好物領取國家補貼,單件產品「補上加補」,可享低至4折起的優惠價。京東將為PLUS會員提...
淘寶直播打造跨界盛宴,助力中國品牌綻放 - 天天要聞

淘寶直播打造跨界盛宴,助力中國品牌綻放

6月15日,一場名為「拾光共醞·汾酒時釀」的沉浸式直播活動在浙江台州仙居拉開帷幕。這場由淘寶直播打造的跨界盛宴,以「千年釀造文化」為脈絡,融合仙居生態楊梅與非遺技藝,吸引了超150萬人次在線觀看,成為老字號品牌年輕化表達的一次成功實踐。以「中國楊梅之鄉」神仙居景區為起點,主持人馬萱通過「夏日水果」話題迅速...
抖音「企業消息」功能,讓商家輕鬆連接客戶! - 天天要聞

抖音「企業消息」功能,讓商家輕鬆連接客戶!

在抖音上用戶可能刷到一個好產品剛動心,下一秒就被其他內容吸引走了。傳統的聯繫方式往往被動又低效,商家只能坐等客戶上門。抖音推出的「企業消息」功能,正是為了解決這些問題,幫商家高效獲客、順暢溝通、快速成交。一、怎麼找客戶?
小米拼了!大批YU7現身小米工廠,保證上市交付 - 天天要聞

小米拼了!大批YU7現身小米工廠,保證上市交付

自從雷總在社交媒體上宣布小米YU7將於6月底發佈,7月份上市之後,相信很多人已經摩拳擦掌想要搶下首批提車了。日前,有網友在小米超級工廠附近拍到了大批小米YU7,看來雷總這次為了保交付也是拼了啊。 ....
電動單車遠光燈被指隱患大 全國現存電動單車相關企業超96.6萬家 - 天天要聞

電動單車遠光燈被指隱患大 全國現存電動單車相關企業超96.6萬家

夜晚出行,你是否曾被電動單車刺眼的遠光燈晃得睜不開眼?記者走訪發現,部分電動單車售賣店竟提供加裝遠光燈服務,網購平台上也有大量外掛遠光燈售賣。這些遠光燈亮度極高,對行人安全構成嚴重威脅。 模擬試驗顯示,當遠光燈迎面照來,行人無論從哪側看去,都只能隱約看到輪廓,視線受到極大幹擾。這不僅影響行人的判...
光儲一體化提速:兩大科技巨頭深化戰略合作布局新能源賽道 - 天天要聞

光儲一體化提速:兩大科技巨頭深化戰略合作布局新能源賽道

海博思創與華為數字能源將以此次合作為起點,在智慧儲能、數字新能源等領域深化協同,為全球客戶提供高效、智能、可持續的綠色能源解決方案投資時間網、標點財經研究員 周運尋隨着電力市場改革的不斷深化,光伏和儲能的多元應用場景加速拓展與裂變,光儲融合正在成為重塑新能源產業格局的新引擎。發力光儲融合,尋找能源未...
「95後」的致富之路,是它? - 天天要聞

「95後」的致富之路,是它?

在杭州海外海跨境園區的服務中心,哈薩克斯坦人王傑用流利的中文和工作人員溝通後,填寫了企業入駐信息表。這意味着,他正式將在中國的外貿大本營從昆明搬到杭州。眾所周知,杭州的直播電商基因強大,周邊產業帶豐富,供應鏈優勢明顯。
iFixit 實測蘋果 iPad 自助維修服務:拆卸屏幕就需 32 個步驟 - 天天要聞

iFixit 實測蘋果 iPad 自助維修服務:拆卸屏幕就需 32 個步驟

IT之家 6 月 17 日消息,蘋果 iPad 上月底加入自助維修服務,允許用戶自行維修設備,但根據維修指南,這一過程並不簡單。據 iFixit 的報告,僅從 iPad Pro 上取下屏幕就需要 32 個步驟,這一過程需要特殊工具來分離將所有部件固定在一起的膠水、膠帶和螺絲。維修過程不僅需要拆卸零部件,還需斷開傳感器、攝像頭、屏蔽層和...