十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一

2025年06月10日21:30:20 動漫 3359

每經記者:岳楚鵬 高涵    每經編輯:蘭素英

2025年高考大幕雖已落下,但關於數學科目難度的討論熱度不減。 

《每日經濟新聞》記者(以下簡稱「每經記者」)選取今年的全國新課標數學i卷作為考題,對deepseek-r1、騰訊混元t1、openai的o3、谷歌的gemini 2.5 pro和xai的grok3等十款ai推理大模型進行了測評,以檢驗當今主流ai推理大模型的數學能力。

測評結果顯示,國產大模型deepseek-r1與騰訊混元t1以零錯誤並列榜首。而被馬斯克稱為「地表最強ai」的grok 3卻遭遇「滑鐵盧」,排名倒數第三。

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一 - 天天要聞

測評標準

本次測評以2025年全國新課標數學i卷(總分150分)作為考題。但每經記者在測試中發現,部分ai推理模型以「重要考試期間」為由拒絕對包含試題的圖片進行識別和解答。

為了讓所有參評大模型站在同一起跑線,測評移除了試卷中所有需要分析圖形和圖表的題目,形成一份有效總分為117分的標準化試卷。

同時,對於谷歌gemini 2.5 pro等沒有這一限制的推理模型,仍將以150分的完整試卷進行測試,旨在測試推理大模型所能達到的最高水平。

扣分標準上,每經記者在選擇題和填空題上都遵循了高考評卷的扣分標準,但對於解答題,本次測評只根據結果計算得分,不對過程打分。

需要說明的是,在此次測試中,每款推理大模型只進行單次測試,得分也僅反映單次測試的結果。

deepseek-r1和騰訊混元t1並列第一

在排除了圖形/圖表題的117分試卷測試中,deepseek-r1與騰訊混元t1展現出了絕對的優勢,以零錯誤的完美表現,取得了117分的滿分成績,並列第一。這表明,在代數計算和函數題等題型解答上,其能力已經達到了極高的水準和穩定性。

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一 - 天天要聞

訊飛星火x1以112分的成績緊隨其後。相較於deepseek-r1與騰訊混元t1這兩款大模型,訊飛星火x1多錯了一道填空題。這道題的正確答案是「±2」,而訊飛星火x1給出的答案是「2」。實際上,該模型的推理過程沒有問題,認為「2」和「-2」都滿足題目條件,但陷入自我懷疑,最終只給出了答案「2」。

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一 - 天天要聞

訊飛星火x1的推理過程 

其他得分超過100分的還有gemini 2.5 pro(109分)、o3(107分)、阿里千問qwen3(106分)和豆包深度思考模式(104分)。在分數佔比最高的解答題上,gemini 2.5 pro和o3均有失誤,其中一道大題僅有部分正確,而阿里千問qwen3和豆包深度思考模式均拿下滿分。 

grok 3慘遭「滑鐵盧」,排名倒數第三

在本次參評的所有ai推理大模型中,如果說有誰的結果最令人意外,那無疑是馬斯克旗下xai公司開發的、被馬斯克稱為「地表最強ai」的grok 3。 

grok在發布之初就被市場寄予厚望,被認為是最有潛力挑戰gpt和gemini霸主地位的「黑馬」。馬斯克多次暗示,grok的目標是成為最強大的ai。 

然而,grok 3此次的表現可以說是遭遇了「滑鐵盧」。在117分的試題測試中,grok 3僅獲得91分,在10個參與測試的推理大模型中排名倒數第三

深入分析其答卷,每經記者發現,grok 3失分的一個獨特且關鍵的原因:它似乎無法正確理解多選題這類題型。

測試過程顯示,即使在記者提示題目為多選題的情況下,grok 3也「頑固」地只給出一個它認為的最優解,導致只能得到部分分數。 

排名倒數第二的是智譜清言推理模式,在117分試卷的測試中得分為78分。

實際上,該模型在多道題目的推理過程中都找到了正確答案,但是往往會在最後一步出現自我懷疑導致邏輯崩潰,陷入循環,最終功虧一簣,白白丟了很多分。

十大推理模型挑戰2025年高考數學題:DeepSeek-R1、騰訊混元T1並列第一 - 天天要聞

智譜清言推理模式解答過程截圖

排在最末尾的是kimi k1.5,該模型在最後兩道壓軸大題上栽了大跟頭,損失了大量的分數。 

綜合所有測試情況來看,在處理有固定步驟和嚴密邏輯的數學問題上,ai推理大模型已經具備很強的能力。但在涉及抽象和創新思維的題目上,目前的大模型還存在一定的局限性。

每日經濟新聞

動漫分類資訊推薦

Model Y看了都直搖頭,這就是小鵬G7的實力? - 天天要聞

Model Y看了都直搖頭,這就是小鵬G7的實力?

▎眾所周知,B級SUV是一個非常龐大的市場,而特斯拉Model Y和理想L6則在其中佔據大頭,今天這輛小鵬的王炸車型G7也要加入這個戰場,它究竟有什麼實力呢?又是否真能在其中佔據一席之地呢?「點擊觀看完整視頻」▽▎關於本期視頻我們有以下信息和您分享:1、這輛小鵬G7擁有前低後高的姿態,整體線條非常的精緻優雅。2、這輛...
銳評丨保護知識產權,不容盜版拉布布「邪魅一笑」 - 天天要聞

銳評丨保護知識產權,不容盜版拉布布「邪魅一笑」

「邪魅一笑」的拉布布(LABUBU),眼下有點兒笑不出來。據報道,隨著拉布布持續火爆,仿冒商品大量出現,有廠家稱貨品供不應求,需要等兩三天才能發出部分貨品;有廠家表示,下訂單15天左右才能陸續出貨。此外,還有廠家開始銷售與原版差距較大的仿品「Lababa」「Lagogo」。拉布布(LABUBU)資料圖。圖據報道拉布布是潮玩品...
收錢時手抖個不停,兩男子跨省賣假黃金,警方連追三省抓人 - 天天要聞

收錢時手抖個不停,兩男子跨省賣假黃金,警方連追三省抓人

兩名男子開著車,從福建省仙游縣出發,一路向北,一邊旅遊散心,一邊在桐廬、安徽、河南等多地售賣摻假的「黃金」騙取真金白銀,共計10餘次,涉案金額高達20餘萬元。今天,橙柿互動記者從諸暨市公安局城中派出所獲悉,該所成功破獲一起利用摻假黃金實施的詐騙案。5月6日,城中派出所接到轄區群眾李大姐來所報警,稱有人用假...
5月銷量依舊低迷,昊鉑「扶不起」,廣汽集團還有多大耐心? - 天天要聞

5月銷量依舊低迷,昊鉑「扶不起」,廣汽集團還有多大耐心?

脫胎於廣汽埃安,之後又獨立成為廣汽集團的高端新能源品牌,廣汽昊鉑在廣汽集團的地位可謂是步步高升。然而,其慘淡的市場表現卻與之形成極大反差。數據顯示,2023年昊鉑全年累計銷量僅8千餘輛,2024年其累計銷量也僅1.7萬餘輛。而進入2025年以來,廣汽昊鉑的市場表現並沒有多大改觀,銷量依舊萎靡不振,前5個月其平均月銷...
Labubu爆火,義烏Labubu一夜之間全下架! - 天天要聞

Labubu爆火,義烏Labubu一夜之間全下架!

近日,泡泡瑪特旗下的Labubu爆火,不少明星也曬出限量款。一款全球唯一一隻的薄荷色LABUBU在永樂2025春季拍賣會上亮相,落槌價為108萬元。二手平台,LABUBU的價格更是一路飆升,原價594元的整盒3.0盲盒飆張至1800元。天眼查App顯示,今年以來,有50餘家新成立的企業用「labubu」諧音命名,包括拉部部(深圳)玩具有限公司、...
熊貓斬謠(2025年6月9日) - 天天要聞

熊貓斬謠(2025年6月9日)

謠言:四川鄰水一名40歲「拾荒奶奶」生活困難?真相:網傳信息不實。近日,部分網路平台傳播鄰水縣一名「40歲『拾荒奶奶』生活苦難」的相關內容,引發公眾關注。經記者調查,視頻中的老人萬某某實際出生於1950年11月29日,於5月18日凌晨去世,享年75歲,其患有精神疾病數十年,經專業機構鑒定為精神病二級。萬某某生前與丈...
OpenAI開源模型發布推遲至夏末,為了狙擊DeepSeek R2? - 天天要聞

OpenAI開源模型發布推遲至夏末,為了狙擊DeepSeek R2?

當開源AI模型正成為技術巨頭必爭之地,OpenAI卻出人意料地按下暫停鍵。OpenAI首席執行官Sam Altman宣布其備受期待的開源模型將延期至「今年夏天晚些時候」,而非原定的6月。這場技術突襲恰逢中國DeepSeek等開源強敵加速搶灘,延期背後是技術豪賭還是市場狙擊?6月11日周三,Altman在X平台發文稱:我們將對開源權重模型投入...
OpenAI推理大模型再度上新 o3-pro已經上線 - 天天要聞

OpenAI推理大模型再度上新 o3-pro已經上線

【TechWeb】6月11日消息,據外媒報道,距OpenAI o3和o4-mini上線還不到兩個月,在生成式人工智慧方面走在行業前列的OpenAI,就再度更新了他們的推理大模型,o3-pro已經上線。從外媒的報道來看,OpenAI是在當地時間周二,宣布推出o3-pro的,已在當天上線,ChatGPT Pro和ChatGPT團隊用戶已能開始使用,ChatGPT
1號颱風「蝴蝶」或兩次登陸,將直撲華南!廣東周末降雨增強 - 天天要聞

1號颱風「蝴蝶」或兩次登陸,將直撲華南!廣東周末降雨增強

昨天(6月10日)上午,南海熱帶低壓生成,將發展為今年第1號颱風「蝴蝶」,直撲華南沿海,這也意味著今年颱風季將正式開啟。中央氣象台今天(6月11日)6時繼續發布熱帶低壓預報:南海熱帶低壓的中心今天早晨5點鐘位於海南三沙市(西沙永興島)東南方大約200公里的南海中西部海面上,就是北緯15.7度、東經113.8度附近,中心...
嘗土識疆石玉麟 - 天天要聞

嘗土識疆石玉麟

多年野外工作,石玉麟覺得,土壤考察最基礎的一層還是人。「用眼睛看,用鏟子挖,用嘴嘗。」1957年5月9日,石玉麟突然接到學校通知:提前畢業。彼時,石玉麟還是北京農業大學(中國農業大學前身)土壤農業化學系的一名學生,正在北京和平農業生產合作社參加生產實習。他慌忙向合作社借了一輛自行車趕回學校,系主任告訴他,...