《科創板日報》5月29日訊 deepseek昨晚通過微信交流群通知,其deepseek r1模型完成小版本升級,並在今日凌晨開源了最新版本模型deepseek-r1-0528。
代碼測試平台live codebench中顯示,deepseek-r1-0528性能可以媲美openai最新的o3(high)模型。
小k今日以一名普通用戶的身份,參考ai基準測試xbench的例題,在deepseek和openai官網分別對它們最新的r1模型和o3模型進行了對比測試。
第1題小k請deepseek和openai模型分別寫了一個可以在網頁上運行的「三國殺」遊戲。測試維度包括代碼生成、可運行性、模塊化能力和交互設計。
deepseek的回答直接輸出了完整的網頁遊戲源碼,並且點擊能直接運行。前端界面美觀,具備基礎美術元素,能完成簡單對戰邏輯。
相比之下,openai給出的解決方案則將前端、腳本和邏輯分別輸出在3個獨立代碼塊中,用戶需自行保存為多個文件,運行時還伴有報錯,需要手動調試,不能完成對戰。而且界面粗糙、無ui美化。
這道題deepseek勝出。deepseek模型在「代碼工程化」能力上已有顯著優勢,表現出對前端框架的更好理解。
第2題是一道典型的函數構造與嵌套函數推導題:已知f(f(x))=x2−11x+36f(f(x))=x^2-11x+36,求f(5)。測試維度包括函數反演、代數推理能力和數學邏輯清晰度。
deepseek耗時351秒推導出解法,思考過程非常長,進行了反覆演算和驗算,過程詳細且邏輯縝密,從代入法到固定點分析再到反設求解,最後合理排除矛盾值,最終得出f(5)=6的唯一解答。
openai則用時僅41秒,給出了同樣正確的答案,而且邏輯清晰、推理精鍊。推出固定點、構造反函數思路合理,無冗餘步驟。
這一題儘管deepseek和openai最終均給出了正確答案,但deepseek推理時間長,在數學題場景仍待優化。
第3題是:黑龍江、吉林、遼寧,共有多少個地市級行政單位與外國接壤?測試維度包括地理常識、事實檢索和數據整合能力。
這道題的正確答案是12個。而deepseek僅回答了5個。
deepseek推理過程中錯誤理解了「地市級單位」是否一定擁有邊境口岸。例如將黑龍江部分地市(如伊春、鶴崗)忽略,導致其推理思路存在漏算。
反觀openai正確地點名了12個地市。
第4題是:有一個被剪做鞋樣的歷史文物,對研究唐代均田制起到了重要的作用,這個文物中記載的年份,有一位唐朝的一代名相去世,請問這位名相有幾個兒子?測試維度包括歷史考據、細節辨析能力和文獻準確性。
deepseek在此題中出現了幻覺,造成誤判,deepseek錯將有「一個被剪做鞋樣的歷史文物」關聯至"唐代田界磚",雖最後回答出「有4子」,但純屬偶合。
openai正確識別文物「趙懷滿夏田契」署於貞觀十七年(643年),對應去世人物為魏徵,並指出魏徵有四子:魏叔玉、魏叔琬、魏叔璘、魏叔瑜。識別精準,邏輯鏈條完整無誤。引用舊唐書、新唐書等文獻,考證準確。
第5題是:《樂隊的夏天》各季top5樂隊中一共有多少名女性成員?測試維度包括多維信息提取、成員歸屬辨析、數據整合能力。
deepseek依次列舉了三季節目中的top5樂隊,並從中篩選女性成員(如新褲子的趙夢、刺蝟的石璐、安達組合的其其格瑪等),統計結果為5位女性成員,並對女性在樂隊中所扮演的角色進行了總結(主唱、貝斯手、鼓手等)。用時不到1分鐘即完成高質量統計+表格整理,效率高。
openai也給出了相同的數量,考證細緻,但花費近6分鐘,在交互場景中顯得拖沓。
通過以上實測可以看出,deepseek r1的表現非常接近甚至在部分任務上超過了openai最新o3模型。在代碼生成、複雜函數推理、統計等方面,deepseek展現出全面且穩定的進步,正快速縮小與頂級閉源模型的差距。