十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一

2025年06月10日21:30:20 动漫 3359

每经记者:岳楚鹏 高涵    每经编辑:兰素英

2025年高考大幕虽已落下,但关于数学科目难度的讨论热度不减。 

《每日经济新闻》记者(以下简称“每经记者”)选取今年的全国新课标数学i卷作为考题,对deepseek-r1、腾讯混元t1、openai的o3、谷歌的gemini 2.5 pro和xai的grok3等十款ai推理大模型进行了测评,以检验当今主流ai推理大模型的数学能力。

测评结果显示,国产大模型deepseek-r1与腾讯混元t1以零错误并列榜首。而被马斯克称为“地表最强ai”的grok 3却遭遇“滑铁卢”,排名倒数第三。

十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一 - 天天要闻

测评标准

本次测评以2025年全国新课标数学i卷(总分150分)作为考题。但每经记者在测试中发现,部分ai推理模型以“重要考试期间”为由拒绝对包含试题的图片进行识别和解答。

为了让所有参评大模型站在同一起跑线,测评移除了试卷中所有需要分析图形和图表的题目,形成一份有效总分为117分的标准化试卷。

同时,对于谷歌gemini 2.5 pro等没有这一限制的推理模型,仍将以150分的完整试卷进行测试,旨在测试推理大模型所能达到的最高水平。

扣分标准上,每经记者在选择题和填空题上都遵循了高考评卷的扣分标准,但对于解答题,本次测评只根据结果计算得分,不对过程打分。

需要说明的是,在此次测试中,每款推理大模型只进行单次测试,得分也仅反映单次测试的结果。

deepseek-r1和腾讯混元t1并列第一

在排除了图形/图表题的117分试卷测试中,deepseek-r1与腾讯混元t1展现出了绝对的优势,以零错误的完美表现,取得了117分的满分成绩,并列第一。这表明,在代数计算和函数题等题型解答上,其能力已经达到了极高的水准和稳定性。

十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一 - 天天要闻

讯飞星火x1以112分的成绩紧随其后。相较于deepseek-r1与腾讯混元t1这两款大模型,讯飞星火x1多错了一道填空题。这道题的正确答案是“±2”,而讯飞星火x1给出的答案是“2”。实际上,该模型的推理过程没有问题,认为“2”和“-2”都满足题目条件,但陷入自我怀疑,最终只给出了答案“2”。

十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一 - 天天要闻

讯飞星火x1的推理过程 

其他得分超过100分的还有gemini 2.5 pro(109分)、o3(107分)、阿里千问qwen3(106分)和豆包深度思考模式(104分)。在分数占比最高的解答题上,gemini 2.5 pro和o3均有失误,其中一道大题仅有部分正确,而阿里千问qwen3和豆包深度思考模式均拿下满分。 

grok 3惨遭“滑铁卢”,排名倒数第三

在本次参评的所有ai推理大模型中,如果说有谁的结果最令人意外,那无疑是马斯克旗下xai公司开发的、被马斯克称为“地表最强ai”的grok 3。 

grok在发布之初就被市场寄予厚望,被认为是最有潜力挑战gpt和gemini霸主地位的“黑马”。马斯克多次暗示,grok的目标是成为最强大的ai。 

然而,grok 3此次的表现可以说是遭遇了“滑铁卢”。在117分的试题测试中,grok 3仅获得91分,在10个参与测试的推理大模型中排名倒数第三

深入分析其答卷,每经记者发现,grok 3失分的一个独特且关键的原因:它似乎无法正确理解多选题这类题型。

测试过程显示,即使在记者提示题目为多选题的情况下,grok 3也“顽固”地只给出一个它认为的最优解,导致只能得到部分分数。 

排名倒数第二的是智谱清言推理模式,在117分试卷的测试中得分为78分。

实际上,该模型在多道题目的推理过程中都找到了正确答案,但是往往会在最后一步出现自我怀疑导致逻辑崩溃,陷入循环,最终功亏一篑,白白丢了很多分。

十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一 - 天天要闻

智谱清言推理模式解答过程截图

排在最末尾的是kimi k1.5,该模型在最后两道压轴大题上栽了大跟头,损失了大量的分数。 

综合所有测试情况来看,在处理有固定步骤和严密逻辑的数学问题上,ai推理大模型已经具备很强的能力。但在涉及抽象和创新思维的题目上,目前的大模型还存在一定的局限性。

每日经济新闻

动漫分类资讯推荐

请绕行!我州这一路段出现山体滑坡 - 天天要闻

请绕行!我州这一路段出现山体滑坡

6月10日金平县交通运输局金平县公安局交通警察大队金平县沙依坡乡人民政府发布了《关于对金平县沙依坡连接线(蔓金二级公路至沙依坡乡路段)实行交通管制的通告》一起来看2025年6月10日,因受连续强降雨影响,金平县沙依坡连接线出现山体滑坡,导致路基下沉,通行存在安全隐患,已不具备通行条件。为确保车辆、行人出...
Model Y看了都直摇头,这就是小鹏G7的实力? - 天天要闻

Model Y看了都直摇头,这就是小鹏G7的实力?

▎众所周知,B级SUV是一个非常庞大的市场,而特斯拉Model Y和理想L6则在其中占据大头,今天这辆小鹏的王炸车型G7也要加入这个战场,它究竟有什么实力呢?又是否真能在其中占据一席之地呢?「点击观看完整视频」▽▎关于本期视频我们有以下信息和您分享:1、这辆小鹏G7拥有前低后高的姿态,整体线条非常的精致优雅。2、这辆...
锐评丨保护知识产权,不容盗版拉布布“邪魅一笑” - 天天要闻

锐评丨保护知识产权,不容盗版拉布布“邪魅一笑”

“邪魅一笑”的拉布布(LABUBU),眼下有点儿笑不出来。据报道,随着拉布布持续火爆,仿冒商品大量出现,有厂家称货品供不应求,需要等两三天才能发出部分货品;有厂家表示,下订单15天左右才能陆续出货。此外,还有厂家开始销售与原版差距较大的仿品“Lababa”“Lagogo”。拉布布(LABUBU)资料图。图据报道拉布布是潮玩品...
收钱时手抖个不停,两男子跨省卖假黄金,警方连追三省抓人 - 天天要闻

收钱时手抖个不停,两男子跨省卖假黄金,警方连追三省抓人

两名男子开着车,从福建省仙游县出发,一路向北,一边旅游散心,一边在桐庐、安徽、河南等多地售卖掺假的“黄金”骗取真金白银,共计10余次,涉案金额高达20余万元。今天,橙柿互动记者从诸暨市公安局城中派出所获悉,该所成功破获一起利用掺假黄金实施的诈骗案。5月6日,城中派出所接到辖区群众李大姐来所报警,称有人用假...
5月销量依旧低迷,昊铂“扶不起”,广汽集团还有多大耐心? - 天天要闻

5月销量依旧低迷,昊铂“扶不起”,广汽集团还有多大耐心?

脱胎于广汽埃安,之后又独立成为广汽集团的高端新能源品牌,广汽昊铂在广汽集团的地位可谓是步步高升。然而,其惨淡的市场表现却与之形成极大反差。数据显示,2023年昊铂全年累计销量仅8千余辆,2024年其累计销量也仅1.7万余辆。而进入2025年以来,广汽昊铂的市场表现并没有多大改观,销量依旧萎靡不振,前5个月其平均月销...
Labubu爆火,义乌Labubu一夜之间全下架! - 天天要闻

Labubu爆火,义乌Labubu一夜之间全下架!

近日,泡泡玛特旗下的Labubu爆火,不少明星也晒出限量款。一款全球唯一一只的薄荷色LABUBU在永乐2025春季拍卖会上亮相,落槌价为108万元。二手平台,LABUBU的价格更是一路飙升,原价594元的整盒3.0盲盒飙张至1800元。天眼查App显示,今年以来,有50余家新成立的企业用“labubu”谐音命名,包括拉部部(深圳)玩具有限公司、...
熊猫斩谣(2025年6月9日) - 天天要闻

熊猫斩谣(2025年6月9日)

谣言:四川邻水一名40岁“拾荒奶奶”生活困难?真相:网传信息不实。近日,部分网络平台传播邻水县一名“40岁‘拾荒奶奶’生活苦难”的相关内容,引发公众关注。经记者调查,视频中的老人万某某实际出生于1950年11月29日,于5月18日凌晨去世,享年75岁,其患有精神疾病数十年,经专业机构鉴定为精神病二级。万某某生前与丈...
OpenAI开源模型发布推迟至夏末,为了狙击DeepSeek R2? - 天天要闻

OpenAI开源模型发布推迟至夏末,为了狙击DeepSeek R2?

当开源AI模型正成为技术巨头必争之地,OpenAI却出人意料地按下暂停键。OpenAI首席执行官Sam Altman宣布其备受期待的开源模型将延期至“今年夏天晚些时候”,而非原定的6月。这场技术突袭恰逢中国DeepSeek等开源强敌加速抢滩,延期背后是技术豪赌还是市场狙击?6月11日周三,Altman在X平台发文称:我们将对开源权重模型投入...