AI大模型参加高考全科目评测,文科总分过一本线,理科过二本线

2024年07月30日00:30:29 教育 7285

AI大模型参加高考全科目评测,文科总分过一本线,理科过二本线 - 天天要闻

人工智能大模型参加中国高考,可以得几分?近日,大模型开源开放评测体系“司南”(opencompass)对中外7个人工智能大模型进行了今年高考(新课标卷)全科目测试,结果显示:上海人工智能实验室“书生·浦语2.0系列文曲星”大模型、阿里“通义千问”大模型qwen2-72b、openai的gpt-4o排名文、理科前三名,前三名“考生”的文、理科成绩分别超过了一本、二本线(以今年高考人数最多的河南省分数线为参考)。

阅卷老师认为,尽管头部大模型在高考中发挥较好,但与优秀真人考生仍存在明显差距,在逻辑推理、知识灵活运用方面能力较弱,有待研发团队今后加强这些方面的训练和调优。

国产大模型考分超过gpt-4o

司南相关负责人介绍,组织大模型参加高考,是为了评测当前大模型的真实水平,找准问题,推动技术进步。此次高考评测采用全卷考试形式,进行全卷评分,大模型“考生”要完成除英语听力外(默认大模型获得满分30分),包括带图题在内的所有题型。

参与评测的6个大模型均为开源模型,分别是阿里巴巴开源的qwen2-57b和qwen2-72b、上海人工智能实验室开源的“浦语文曲星”、智谱华章开源的glm-4-9b、零一万物开源的yi-1.5-34b、法国企业mistral开源的mixtral8x22b。这些模型都在今年高考前开源,排除了泄题的可能性。

此次评测还引入了一个闭源大模型gpt-4o,因为它是国际领先的大模型,用于比对参考。为确保评分和真实高考基本一致,“司南”团队邀请有高考阅卷经验的老师打分。

评测结果显示,阿里“通义千问”大模型qwen2-72b以546分成为“文科状元”,“浦语文曲星”以468.5分成为“理科状元”,这两个国产大模型的考分都超过了“非开源国际插班生”gpt-4o(文科531分,理科467分)。

AI大模型参加高考全科目评测,文科总分过一本线,理科过二本线 - 天天要闻

7个大模型参加今年高考(新课标卷)的得分情况

以河南省录取批次线为参考,qwen2-72b、“浦语文曲星”、gpt-4o的文科成绩均超过一本线,展现出大模型在语文、历史、地理、思想政治等科目上深厚的知识储备和理解能力。而在理科考试上,它们的整体表现弱于文科,反映出大模型在数理推理能力上存在短板。当然,前三名的理科成绩均超过二本分数线,体现了大模型在数理推理方面的提升潜力。

自创唐诗“骗”过阅卷老师

完成阅卷后,老师们认为,除了数理推理能力较弱,大模型还存在反思能力、空间想象能力、物理和化学实验理解能力等短板。

例如,数学考卷中一题为:

已知a(0,3)和p(3,3/2)为椭圆c:x²/a²+y²/b²=1(a>b>0)上两点

(1)求c的离心率

(2)若过p的直线l交c于另一点b,且△abp的面积为9,求l的方程

由于在解题过程中出现计算错误,出现了不正确的求解k值方程式:

不正确的求解k值方程式

面对如此难解的方程式,大模型依然选择“硬解”,直接蒙了一个答案。而大多数人类考生如果发现计算存在问题,会反思此前若干步骤的计算是否有误、进行检查,而非“硬解”方程式。

在空间想象能力上,大模型解答一道立体几何大题的平均得分率仅为8.5%,远低于数学平均得分率35.5%。通过检查大模型的答题,评测团队发现,它们往往会作出一些完全不符合空间逻辑的推断,例如:

完全不符合空间逻辑的推断

大模型对实验设备和基本实验步骤的理解也很有限。在回答化学题“取100mmol己-2,5-二酮应选取何种仪器”时,除了gpt-4o,其他大模型都认为应使用量筒,没有考虑需求数量对仪器选取的影响。其实,如此少量的试剂应选用酸式滴定管。在回答物理题“多用电表测量电压表内阻”时,所有大模型均无法准确读出图中的电阻值,表明它们对实验设备的理解很有限。

一本正经地虚构内容,是大模型解答文科题目时会出现的问题。例如,语文考卷中一道填空题为:“唐代诗人写时事,常常托之于汉代,如‘____,____’,就是借汉喻唐,以古方今。”一个大模型的回答是“想知汉武宫香径,请看长安市醉人”。这句诗存在对仗且的确是“以古方今”,一些阅卷老师误以为唐代诗人写过这句,认为大模型答对了,但实际上它是人工智能虚构的,属于“原创”诗句。

专家指出,大模型的“幻觉”是一个亟待解决的问题,要通过“通专融合”等途径有效解决,这样才能让大模型应用于各个专业领域。

教育分类资讯推荐

花几大千找高报师填志愿你觉得值吗? - 天天要闻

花几大千找高报师填志愿你觉得值吗?

当今世界,还是有很多家长花几大千甚至上万(某网红志愿填报公司动不动一个名额1万多)去找高报师给自己孩子填志愿,你们觉得真的值得花这个钱吗?还是智商税?
​2025年高考有何特殊之处 - 天天要闻

​2025年高考有何特殊之处

视觉中国供图 7月7日,距离2025年高考刚好过去了一个月。 对教育领域来说,每年夏天最大的事就是高考了。作为一个报道教育多年的记者,因其典型的“风向标”作用,我关注最多、研究最多的也是高考——向下,它影响着12年基础教育的教与学;向上,又直接关系到高等教育的质量。 今年的高考有些“特别”,甚至有人说今年的高...
偷录手机通话能作呈堂证供吗? - 天天要闻

偷录手机通话能作呈堂证供吗?

苹果手机系统升级,增加了支持通话录音功能,引发广大网友的关注。在当前的民事诉讼中,有越来越多的当事人将通话录音作为证据提交法院。那么,通话录音能否作为证据?偷录的通话录音是否具有合法性?符合证据要求的通话录音又该如何采集?(图源网络 侵删)通话录音可否作为证据向法院提交?如今,通过手机打电话、发信息...
2025四川省专科大学名单!附2024年录取分数线参考 - 天天要闻

2025四川省专科大学名单!附2024年录取分数线参考

四川专科学校包括四川交通职业技术学院、成都航空职业技术学院、四川铁道职业学院等。2024年四川专科公办学校分数较低的有成都工业职业技术学院(409分)、绵阳职业技术学院(411分)、四川航天职业技术学院(412分)等。