AI大模型参加高考全科目评测,文科总分过一本线,理科过二本线

2024年07月30日00:30:29 教育 7285

AI大模型参加高考全科目评测,文科总分过一本线,理科过二本线 - 天天要闻

人工智能大模型参加中国高考,可以得几分?近日,大模型开源开放评测体系“司南”(opencompass)对中外7个人工智能大模型进行了今年高考(新课标卷)全科目测试,结果显示:上海人工智能实验室“书生·浦语2.0系列文曲星”大模型、阿里“通义千问”大模型qwen2-72b、openai的gpt-4o排名文、理科前三名,前三名“考生”的文、理科成绩分别超过了一本、二本线(以今年高考人数最多的河南省分数线为参考)。

阅卷老师认为,尽管头部大模型在高考中发挥较好,但与优秀真人考生仍存在明显差距,在逻辑推理、知识灵活运用方面能力较弱,有待研发团队今后加强这些方面的训练和调优。

国产大模型考分超过gpt-4o

司南相关负责人介绍,组织大模型参加高考,是为了评测当前大模型的真实水平,找准问题,推动技术进步。此次高考评测采用全卷考试形式,进行全卷评分,大模型“考生”要完成除英语听力外(默认大模型获得满分30分),包括带图题在内的所有题型。

参与评测的6个大模型均为开源模型,分别是阿里巴巴开源的qwen2-57b和qwen2-72b、上海人工智能实验室开源的“浦语文曲星”、智谱华章开源的glm-4-9b、零一万物开源的yi-1.5-34b、法国企业mistral开源的mixtral8x22b。这些模型都在今年高考前开源,排除了泄题的可能性。

此次评测还引入了一个闭源大模型gpt-4o,因为它是国际领先的大模型,用于比对参考。为确保评分和真实高考基本一致,“司南”团队邀请有高考阅卷经验的老师打分。

评测结果显示,阿里“通义千问”大模型qwen2-72b以546分成为“文科状元”,“浦语文曲星”以468.5分成为“理科状元”,这两个国产大模型的考分都超过了“非开源国际插班生”gpt-4o(文科531分,理科467分)。

AI大模型参加高考全科目评测,文科总分过一本线,理科过二本线 - 天天要闻

7个大模型参加今年高考(新课标卷)的得分情况

以河南省录取批次线为参考,qwen2-72b、“浦语文曲星”、gpt-4o的文科成绩均超过一本线,展现出大模型在语文、历史、地理、思想政治等科目上深厚的知识储备和理解能力。而在理科考试上,它们的整体表现弱于文科,反映出大模型在数理推理能力上存在短板。当然,前三名的理科成绩均超过二本分数线,体现了大模型在数理推理方面的提升潜力。

自创唐诗“骗”过阅卷老师

完成阅卷后,老师们认为,除了数理推理能力较弱,大模型还存在反思能力、空间想象能力、物理和化学实验理解能力等短板。

例如,数学考卷中一题为:

已知a(0,3)和p(3,3/2)为椭圆c:x²/a²+y²/b²=1(a>b>0)上两点

(1)求c的离心率

(2)若过p的直线l交c于另一点b,且△abp的面积为9,求l的方程

由于在解题过程中出现计算错误,出现了不正确的求解k值方程式:

不正确的求解k值方程式

面对如此难解的方程式,大模型依然选择“硬解”,直接蒙了一个答案。而大多数人类考生如果发现计算存在问题,会反思此前若干步骤的计算是否有误、进行检查,而非“硬解”方程式。

在空间想象能力上,大模型解答一道立体几何大题的平均得分率仅为8.5%,远低于数学平均得分率35.5%。通过检查大模型的答题,评测团队发现,它们往往会作出一些完全不符合空间逻辑的推断,例如:

完全不符合空间逻辑的推断

大模型对实验设备和基本实验步骤的理解也很有限。在回答化学题“取100mmol己-2,5-二酮应选取何种仪器”时,除了gpt-4o,其他大模型都认为应使用量筒,没有考虑需求数量对仪器选取的影响。其实,如此少量的试剂应选用酸式滴定管。在回答物理题“多用电表测量电压表内阻”时,所有大模型均无法准确读出图中的电阻值,表明它们对实验设备的理解很有限。

一本正经地虚构内容,是大模型解答文科题目时会出现的问题。例如,语文考卷中一道填空题为:“唐代诗人写时事,常常托之于汉代,如‘____,____’,就是借汉喻唐,以古方今。”一个大模型的回答是“想知汉武宫香径,请看长安市醉人”。这句诗存在对仗且的确是“以古方今”,一些阅卷老师误以为唐代诗人写过这句,认为大模型答对了,但实际上它是人工智能虚构的,属于“原创”诗句。

专家指出,大模型的“幻觉”是一个亟待解决的问题,要通过“通专融合”等途径有效解决,这样才能让大模型应用于各个专业领域。

教育分类资讯推荐

“法X功”学校舞蹈教师病亡,年仅33岁 - 天天要闻

“法X功”学校舞蹈教师病亡,年仅33岁

自中国反邪教网发布《李洪志及境外“法X功”邪教组织丑行劣迹线索征集》以来,不断收到网友提供的线索。▲安妮·索恩讣告网友提供,2025年5月7日,“法X功”旗下“飞天艺术学院”加州分校项目总监、舞蹈老师安妮·索恩(Anne Sohn)因癌症病
高考后现“医美”热潮,学生扎堆整形!这些风险要注意 - 天天要闻

高考后现“医美”热潮,学生扎堆整形!这些风险要注意

近几年,每年高考后都会出现一阵“医美”热潮,“双眼皮手术爆单”“打瘦脸针要抢号”……不少高中毕业生趁暑假做医美,准备“改头换面”迎接大学生活。未成年人适合做医美手术吗?这类手术背后,潜藏着哪些容易被忽视的风险?
学生管理——2026级新生家长会安排 - 天天要闻

学生管理——2026级新生家长会安排

一、目的:向家长宣传我校办学成就,介绍学校课堂教学改革指导思想、措施与成效,说明学生在校学校提供的各项服务保障工作让家长放心,争取家长对学校工作的理解与支持。二、时间、地点:报到第一天(**月**日)上午8:30开始,11:30结束。地点在
不出国门也能培养世界人才!多所高校共议“在地国际化”之路 - 天天要闻

不出国门也能培养世界人才!多所高校共议“在地国际化”之路

如何让中国学子不出国门就能享受世界一流名校的优质教育资源?这不仅是中外合作大学的课题,更是所有类型高校共同关注的方向。2025年“新时代高等教育在地国际化与青年人才培养”国际研讨会于7月2日至4日在宁波诺丁汉大学举行。本次论坛聚焦“在地国际化”与“青年人才培养”,涵盖开幕式暨主论坛,两大垂直领域分论坛和一...
花几大千找高报师填志愿你觉得值吗? - 天天要闻

花几大千找高报师填志愿你觉得值吗?

当今世界,还是有很多家长花几大千甚至上万(某网红志愿填报公司动不动一个名额1万多)去找高报师给自己孩子填志愿,你们觉得真的值得花这个钱吗?还是智商税?
​2025年高考有何特殊之处 - 天天要闻

​2025年高考有何特殊之处

视觉中国供图 7月7日,距离2025年高考刚好过去了一个月。 对教育领域来说,每年夏天最大的事就是高考了。作为一个报道教育多年的记者,因其典型的“风向标”作用,我关注最多、研究最多的也是高考——向下,它影响着12年基础教育的教与学;向上,又直接关系到高等教育的质量。 今年的高考有些“特别”,甚至有人说今年的高...