十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一

2025年06月10日21:30:20 動漫 3359

每經記者:岳楚鵬 高涵    每經編輯:蘭素英

2025年高考大幕雖已落下,但關於數學科目難度的討論熱度不減。 

《每日經濟新聞》記者(以下簡稱「每經記者」)選取今年的全國新課標數學i卷作為考題,對deepseek-r1、騰訊混元t1、openai的o3、谷歌的gemini 2.5 pro和xai的grok3等十款ai推理大模型進行了測評,以檢驗當今主流ai推理大模型的數學能力。

測評結果顯示,國產大模型deepseek-r1與騰訊混元t1以零錯誤並列榜首。而被馬斯克稱為「地表最強ai」的grok 3卻遭遇「滑鐵盧」,排名倒數第三。

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一 - 天天要聞

測評標準

本次測評以2025年全國新課標數學i卷(總分150分)作為考題。但每經記者在測試中發現,部分ai推理模型以「重要考試期間」為由拒絕對包含試題的圖片進行識別和解答。

為了讓所有參評大模型站在同一起跑線,測評移除了試卷中所有需要分析圖形和圖表的題目,形成一份有效總分為117分的標準化試卷。

同時,對於谷歌gemini 2.5 pro等沒有這一限制的推理模型,仍將以150分的完整試卷進行測試,旨在測試推理大模型所能達到的最高水平。

扣分標準上,每經記者在選擇題和填空題上都遵循了高考評卷的扣分標準,但對於解答題,本次測評只根據結果計算得分,不對過程打分。

需要說明的是,在此次測試中,每款推理大模型只進行單次測試,得分也僅反映單次測試的結果。

deepseek-r1和騰訊混元t1並列第一

在排除了圖形/圖表題的117分試卷測試中,deepseek-r1與騰訊混元t1展現出了絕對的優勢,以零錯誤的完美表現,取得了117分的滿分成績,並列第一。這表明,在代數計算和函數題等題型解答上,其能力已經達到了極高的水準和穩定性。

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一 - 天天要聞

訊飛星火x1以112分的成績緊隨其後。相較於deepseek-r1與騰訊混元t1這兩款大模型,訊飛星火x1多錯了一道填空題。這道題的正確答案是「±2」,而訊飛星火x1給出的答案是「2」。實際上,該模型的推理過程沒有問題,認為「2」和「-2」都滿足題目條件,但陷入自我懷疑,最終只給出了答案「2」。

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一 - 天天要聞

訊飛星火x1的推理過程 

其他得分超過100分的還有gemini 2.5 pro(109分)、o3(107分)、阿里千問qwen3(106分)和豆包深度思考模式(104分)。在分數佔比最高的解答題上,gemini 2.5 pro和o3均有失誤,其中一道大題僅有部分正確,而阿里千問qwen3和豆包深度思考模式均拿下滿分。 

grok 3慘遭「滑鐵盧」,排名倒數第三

在本次參評的所有ai推理大模型中,如果說有誰的結果最令人意外,那無疑是馬斯克旗下xai公司開發的、被馬斯克稱為「地表最強ai」的grok 3。 

grok在發佈之初就被市場寄予厚望,被認為是最有潛力挑戰gpt和gemini霸主地位的「黑馬」。馬斯克多次暗示,grok的目標是成為最強大的ai。 

然而,grok 3此次的表現可以說是遭遇了「滑鐵盧」。在117分的試題測試中,grok 3僅獲得91分,在10個參與測試的推理大模型中排名倒數第三

深入分析其答卷,每經記者發現,grok 3失分的一個獨特且關鍵的原因:它似乎無法正確理解多選題這類題型。

測試過程顯示,即使在記者提示題目為多選題的情況下,grok 3也「頑固」地只給出一個它認為的最優解,導致只能得到部分分數。 

排名倒數第二的是智譜清言推理模式,在117分試卷的測試中得分為78分。

實際上,該模型在多道題目的推理過程中都找到了正確答案,但是往往會在最後一步出現自我懷疑導致邏輯崩潰,陷入循環,最終功虧一簣,白白丟了很多分。

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一 - 天天要聞

智譜清言推理模式解答過程截圖

排在最末尾的是kimi k1.5,該模型在最後兩道壓軸大題上栽了大跟頭,損失了大量的分數。 

綜合所有測試情況來看,在處理有固定步驟和嚴密邏輯的數學問題上,ai推理大模型已經具備很強的能力。但在涉及抽象和創新思維的題目上,目前的大模型還存在一定的局限性。

每日經濟新聞

動漫分類資訊推薦

❄️【絕對零度下的靈魂溫度——解析冰河的成長史詩】❄️ - 天天要聞

❄️【絕對零度下的靈魂溫度——解析冰河的成長史詩】❄️

在《聖鬥士星矢》的宏大敘事中,白鳥座冰河的存在猶如西伯利亞的冰原,冷峻外表下暗藏着足以融化冰川的熾熱靈魂。這個角色之所以成為跨越時代的經典,源於其複雜的人物弧光與深刻的象徵意義。 一、冰壁封印的創傷:孤獨鑄就的戰鬥哲學冰河的童年是被永凍層封
位元組跳動公布核心人才觀 稱用人看潛力不看資歷 - 天天要聞

位元組跳動公布核心人才觀 稱用人看潛力不看資歷

站長之家(ChinaZ.com)6月11日 消息:昨日,位元組跳動公布六大人才觀。位元組跳動表示,自創業之初便堅信人才是公司成功的關鍵要素,秉持「和優秀的人,做有挑戰的事」的理念吸引眾多人才加入。公司認為,隨着業務複雜度提升,保持優秀人才密度大於業務複雜度是組織有效運行的關鍵,更傾向於通過優秀人才的創新意願和能力來應...
EDGM疑似更新失敗,可能重返B組懷抱! - 天天要聞

EDGM疑似更新失敗,可能重返B組懷抱!

EDGM能脫離漫長的低谷實屬不易,曾經很長時間都跟RNGM攜手霸佔B組,引進愛思擔任主教練,不斷召回老選手和引入新選手嘗試排列組合,才在春季賽進入勝者組,並打到六強的戰果。當然這個六強未必就是真實實力,畢竟EDGM是被冠亞軍聯手做掉,並未獲得跟其他戰隊交手的機會,ACL也棋差一着沒能獲得參加資格。但EDGM還是選擇更新...
法醫秦明:法醫很艱苦,從業需謹慎 - 天天要聞

法醫秦明:法醫很艱苦,從業需謹慎

中新網合肥6月12日電(任思雨 袁楚凝 李太源)「法醫很艱苦,從業需謹慎。」全國高考剛剛落幕,知名法醫秦明在接受中新網記者採訪時,給有意報考法醫專業的年輕學子們「降了降溫」。 6月10日,安徽省公安廳法醫、作家秦明亮相2025年中國網絡文明大會主論壇並發主題演講。身兼一線法醫、懸疑作家、網絡大V等身份,秦明以三句安...
柯南1146話:卡邁爾、朗姆分別認出對方,紅黑雙方又要開戰了? - 天天要聞

柯南1146話:卡邁爾、朗姆分別認出對方,紅黑雙方又要開戰了?

近日,《名偵探柯南》漫畫1146話已經正式更新了,這一話中,已經推理出真相的柯南偷偷找到卡邁爾,讓卡邁爾配合他破案,他模仿卡邁爾的聲音,卡邁爾再對嘴型,還說有什麼意外情況就隨機應變。而朗姆也注意到了他們的竊竊私語,不過不清楚他們在搞什麼飛機。之後柯南開始用卡邁爾的聲音推理案件,卡邁爾也裝模作樣的配合他,...
請繞行!我州這一路段出現山體滑坡 - 天天要聞

請繞行!我州這一路段出現山體滑坡

6月10日金平縣交通運輸局金平縣公安局交通警察大隊金平縣沙依坡鄉人民政府發佈了《關於對金平縣沙依坡連接線(蔓金二級公路至沙依坡鄉路段)實行交通管制的通告》一起來看2025年6月10日,因受連續強降雨影響,金平縣沙依坡連接線出現山體滑坡,導致路基下沉,通行存在安全隱患,已不具備通行條件。為確保車輛、行人出...
Model Y看了都直搖頭,這就是小鵬G7的實力? - 天天要聞

Model Y看了都直搖頭,這就是小鵬G7的實力?

▎眾所周知,B級SUV是一個非常龐大的市場,而特斯拉Model Y和理想L6則在其中佔據大頭,今天這輛小鵬的王炸車型G7也要加入這個戰場,它究竟有什麼實力呢?又是否真能在其中佔據一席之地呢?「點擊觀看完整視頻」▽▎關於本期視頻我們有以下信息和您分享:1、這輛小鵬G7擁有前低後高的姿態,整體線條非常的精緻優雅。2、這輛...
銳評丨保護知識產權,不容盜版拉布布「邪魅一笑」 - 天天要聞

銳評丨保護知識產權,不容盜版拉布布「邪魅一笑」

「邪魅一笑」的拉布布(LABUBU),眼下有點兒笑不出來。據報道,隨着拉布布持續火爆,仿冒商品大量出現,有廠家稱貨品供不應求,需要等兩三天才能發出部分貨品;有廠家表示,下訂單15天左右才能陸續出貨。此外,還有廠家開始銷售與原版差距較大的仿品「Lababa」「Lagogo」。拉布布(LABUBU)資料圖。圖據報道拉布布是潮玩品...