每經記者:岳楚鵬 高涵 每經編輯:蘭素英
2025年高考大幕雖已落下,但關於數學科目難度的討論熱度不減。
《每日經濟新聞》記者(以下簡稱“每經記者”)選取今年的全國新課標數學i卷作為考題,對deepseek-r1、騰訊混元t1、openai的o3、谷歌的gemini 2.5 pro和xai的grok3等十款ai推理大模型進行了測評,以檢驗當今主流ai推理大模型的數學能力。
測評結果顯示,國產大模型deepseek-r1與騰訊混元t1以零錯誤並列榜首。而被馬斯克稱為“地表最強ai”的grok 3卻遭遇“滑鐵盧”,排名倒數第三。
測評標準
本次測評以2025年全國新課標數學i卷(總分150分)作為考題。但每經記者在測試中發現,部分ai推理模型以“重要考試期間”為由拒絕對包含試題的圖片進行識別和解答。
為了讓所有參評大模型站在同一起跑線,測評移除了試卷中所有需要分析圖形和圖表的題目,形成一份有效總分為117分的標準化試卷。
同時,對於谷歌gemini 2.5 pro等沒有這一限制的推理模型,仍將以150分的完整試卷進行測試,旨在測試推理大模型所能達到的最高水平。
扣分標準上,每經記者在選擇題和填空題上都遵循了高考評卷的扣分標準,但對於解答題,本次測評只根據結果計算得分,不對過程打分。
需要說明的是,在此次測試中,每款推理大模型只進行單次測試,得分也僅反映單次測試的結果。
deepseek-r1和騰訊混元t1並列第一
在排除了圖形/圖表題的117分試卷測試中,deepseek-r1與騰訊混元t1展現出了絕對的優勢,以零錯誤的完美表現,取得了117分的滿分成績,並列第一。這表明,在代數計算和函數題等題型解答上,其能力已經達到了極高的水準和穩定性。
訊飛星火x1以112分的成績緊隨其後。相較於deepseek-r1與騰訊混元t1這兩款大模型,訊飛星火x1多錯了一道填空題。這道題的正確答案是“±2”,而訊飛星火x1給出的答案是“2”。實際上,該模型的推理過程沒有問題,認為“2”和“-2”都滿足題目條件,但陷入自我懷疑,最終只給出了答案“2”。
訊飛星火x1的推理過程
其他得分超過100分的還有gemini 2.5 pro(109分)、o3(107分)、阿里千問qwen3(106分)和豆包深度思考模式(104分)。在分數佔比最高的解答題上,gemini 2.5 pro和o3均有失誤,其中一道大題僅有部分正確,而阿里千問qwen3和豆包深度思考模式均拿下滿分。
grok 3慘遭“滑鐵盧”,排名倒數第三
在本次參評的所有ai推理大模型中,如果說有誰的結果最令人意外,那無疑是馬斯克旗下xai公司開發的、被馬斯克稱為“地表最強ai”的grok 3。
grok在發布之初就被市場寄予厚望,被認為是最有潛力挑戰gpt和gemini霸主地位的“黑馬”。馬斯克多次暗示,grok的目標是成為最強大的ai。
然而,grok 3此次的表現可以說是遭遇了“滑鐵盧”。在117分的試題測試中,grok 3僅獲得91分,在10個參與測試的推理大模型中排名倒數第三。
深入分析其答卷,每經記者發現,grok 3失分的一個獨特且關鍵的原因:它似乎無法正確理解多選題這類題型。
測試過程顯示,即使在記者提示題目為多選題的情況下,grok 3也“頑固”地只給出一個它認為的最優解,導致只能得到部分分數。
排名倒數第二的是智譜清言推理模式,在117分試卷的測試中得分為78分。
實際上,該模型在多道題目的推理過程中都找到了正確答案,但是往往會在最後一步出現自我懷疑導致邏輯崩潰,陷入循環,最終功虧一簣,白白丟了很多分。
智譜清言推理模式解答過程截圖
排在最末尾的是kimi k1.5,該模型在最後兩道壓軸大題上栽了大跟頭,損失了大量的分數。
綜合所有測試情況來看,在處理有固定步驟和嚴密邏輯的數學問題上,ai推理大模型已經具備很強的能力。但在涉及抽象和創新思維的題目上,目前的大模型還存在一定的局限性。
每日經濟新聞