國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決

2025年05月29日16:30:21 動漫 2498

《科創板日報》5月29日訊 deepseek昨晚通過微信交流群通知,其deepseek r1模型完成小版本升級,並在今日凌晨開源了最新版本模型deepseek-r1-0528。

代碼測試平台live codebench中顯示,deepseek-r1-0528性能可以媲美openai最新的o3(high)模型。

小k今日以一名普通用戶的身份,參考ai基準測試xbench的例題,在deepseek和openai官網分別對它們最新的r1模型和o3模型進行了對比測試。


第1題小k請deepseek和openai模型分別寫了一個可以在網頁上運行的「三國殺」遊戲。測試維度包括代碼生成、可運行性、模塊化能力和交互設計

deepseek的回答直接輸出了完整的網頁遊戲源碼,並且點擊能直接運行。前端界面美觀,具備基礎美術元素,能完成簡單對戰邏輯

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞

相比之下,openai給出的解決方案則將前端、腳本和邏輯分別輸出在3個獨立代碼塊中,用戶需自行保存為多個文件,運行時還伴有報錯,需要手動調試,不能完成對戰。而且界面粗糙、無ui美化。

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞

這道題deepseek勝出。deepseek模型在「代碼工程化」能力上已有顯著優勢,表現出對前端框架的更好理解。


第2題是一道典型的函數構造與嵌套函數推導題:已知f(f(x))=x2−11x+36f(f(x))=x^2-11x+36,求f(5)。測試維度包括函數反演、代數推理能力和數學邏輯清晰度。

deepseek耗時351秒推導出解法,思考過程非常長,進行了反覆演算和驗算,過程詳細且邏輯縝密,從代入法到固定點分析再到反設求解,最後合理排除矛盾值,最終得出f(5)=6的唯一解答。

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞

openai則用時僅41秒,給出了同樣正確的答案,而且邏輯清晰、推理精鍊。推出固定點、構造反函數思路合理,無冗餘步驟。

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞

這一題儘管deepseek和openai最終均給出了正確答案,但deepseek推理時間長,在數學題場景仍待優化


第3題是:黑龍江、吉林、遼寧,共有多少個地市級行政單位與外國接壤?測試維度包括地理常識、事實檢索和數據整合能力。

這道題的正確答案是12個。而deepseek僅回答了5個。

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞

deepseek推理過程中錯誤理解了「地市級單位」是否一定擁有邊境口岸。例如將黑龍江部分地市(如伊春、鶴崗)忽略,導致其推理思路存在漏算。

反觀openai正確地點名了12個地市。

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞


第4題是:有一個被剪做鞋樣的歷史文物,對研究唐代均田制起到了重要的作用,這個文物中記載的年份,有一位唐朝的一代名相去世,請問這位名相有幾個兒子?測試維度包括歷史考據、細節辨析能力和文獻準確性。

deepseek在此題中出現了幻覺,造成誤判,deepseek錯將有「一個被剪做鞋樣的歷史文物」關聯至"唐代田界磚",雖最後回答出「有4子」,但純屬偶合。

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞

openai正確識別文物「趙懷滿夏田契」署於貞觀十七年(643年),對應去世人物為魏徵,並指出魏徵有四子:魏叔玉、魏叔琬、魏叔璘、魏叔瑜。識別精準,邏輯鏈條完整無誤。引用舊唐書、新唐書等文獻,考證準確。

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞


第5題是:《樂隊的夏天》各季top5樂隊中一共有多少名女性成員?測試維度包括多維信息提取、成員歸屬辨析、數據整合能力。

deepseek依次列舉了三季節目中的top5樂隊,並從中篩選女性成員(如新褲子的趙夢、刺蝟的石璐、安達組合的其其格瑪等),統計結果為5位女性成員,並對女性在樂隊中所扮演的角色進行了總結(主唱、貝斯手、鼓手等)。用時不到1分鐘即完成高質量統計+表格整理,效率高。

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞

openai也給出了相同的數量,考證細緻,但花費近6分鐘,在交互場景中顯得拖沓

國產開源模型強勢追擊!DeepSeek與OpenAI最新模型實測對決 - 天天要聞


通過以上實測可以看出,deepseek r1的表現非常接近甚至在部分任務上超過了openai最新o3模型。在代碼生成、複雜函數推理、統計等方面,deepseek展現出全面且穩定的進步,正快速縮小與頂級閉源模型的差距。

(科創板日報 朱凌)

動漫分類資訊推薦

楊柳絮飄飛季,請警惕身邊的「白色火患」! - 天天要聞

楊柳絮飄飛季,請警惕身邊的「白色火患」!

飄飛季楊柳絮請警惕身邊「白色火患」近日 漫天楊柳飛絮在晴朗乾燥的天氣條件這些楊柳絮不僅會給大家的出行和健康帶來影響還存在極大的火災隱患楊柳絮危險指數:科普指南:飛絮含有90%的纖維和油脂,表面絨毛與空氣中的氧氣充分結合,一旦遇明火,可在2秒內迅速燃燒,且蔓延速度極快。此外,飛絮本身十分輕盈,着火後會隨風...
馬斯克新演講:生命的意義是42!星艦必然有42台引擎! - 天天要聞

馬斯克新演講:生命的意義是42!星艦必然有42台引擎!

火星在召喚,夢想永不熄!北京時間5月30日凌晨4:23,SpaceX在X平台發佈馬斯克最新演講:《The Road to Making Life Multiplanetary》,好似一團烈焰點燃星艦第九飛失敗後的黑夜。這場演講歷經多次時間變更,從試飛前夕到發射日中午,最終定於試飛失敗後半小時——美國中部時間5月27日晚8點,星艦基地超級工廠內,馬斯克以恆..
煙花加持!這學習狀態不得一飛衝天 - 天天要聞

煙花加持!這學習狀態不得一飛衝天

少年應有鴻鵠志,當騎駿馬踏平川距離2025高考只剩8天這場青春的戰役即將吹響最後的衝鋒號希望各位高考學子在緊張的複習里保持輕鬆的心情在繁忙的備考中保持淡定的姿態別慌恆達煙花已備好最絢爛的應援行業首創許願臻品系列煙花這些產品背後有着恆達煙花創始人「花炮姐」李艷平帶領團隊跋山涉水抵達五台山求索的誠意有着「精...
慧眼識珠🤣韋世豪:剛到一個月就跟胡荷韜說,以後一定是國家隊 - 天天要聞

慧眼識珠🤣韋世豪:剛到一個月就跟胡荷韜說,以後一定是國家隊

直播吧05月30日訊 韋世豪接受足球之夜採訪時,談到了胡荷韜。韋世豪:其實因為我剛來沒待多久(的時候),我就覺得這個孩子平時包括訓練都是特別謙遜的一個球員。所以我跟他說,我說小胡。我就剛來一個月就跟他說以後你一定是國家隊的。胡荷韜:對,他跟我說過。記者:他為什麼這麼篤定?胡荷韜:我也不知道,很有自信。其...
《藏海傳》劇情大反轉!本以為驚喜是庄之行,沒想到卻是蔣襄 - 天天要聞

《藏海傳》劇情大反轉!本以為驚喜是庄之行,沒想到卻是蔣襄

電視劇《藏海傳》劇情反轉太快,一時間都沒有反映過來,藏海的復仇之路,本來只有平津侯一個人。結果在刺殺平津侯失敗後,恩公卻告訴他有三個人,一個人都難以對付,結果又冒出三個,而且一個比一個難對付,其中還有一個人不知道是誰。藏海想要成功報仇真是任重道遠,不過藏海的盟友卻是越來越多了,首先就是觀風了。不過觀...