AI大模型參加高考全科目評測,文科總分過一本線,理科過二本線

2024年07月30日00:30:29 教育 7285

AI大模型參加高考全科目評測,文科總分過一本線,理科過二本線 - 天天要聞

人工智慧大模型參加中國高考,可以得幾分?近日,大模型開源開放評測體系「司南」(opencompass)對中外7個人工智慧大模型進行了今年高考(新課標卷)全科目測試,結果顯示:上海人工智慧實驗室「書生·浦語2.0系列文曲星」大模型、阿里「通義千問」大模型qwen2-72b、openai的gpt-4o排名文、理科前三名,前三名「考生」的文、理科成績分別超過了一本、二本線(以今年高考人數最多的河南省分數線為參考)。

閱卷老師認為,儘管頭部大模型在高考中發揮較好,但與優秀真人考生仍存在明顯差距,在邏輯推理、知識靈活運用方面能力較弱,有待研發團隊今後加強這些方面的訓練和調優。

國產大模型考分超過gpt-4o

司南相關負責人介紹,組織大模型參加高考,是為了評測當前大模型的真實水平,找准問題,推動技術進步。此次高考評測採用全卷考試形式,進行全卷評分,大模型「考生」要完成除英語聽力外(默認大模型獲得滿分30分),包括帶圖題在內的所有題型。

參與評測的6個大模型均為開源模型,分別是阿里巴巴開源的qwen2-57b和qwen2-72b、上海人工智慧實驗室開源的「浦語文曲星」、智譜華章開源的glm-4-9b、零一萬物開源的yi-1.5-34b、法國企業mistral開源的mixtral8x22b。這些模型都在今年高考前開源,排除了泄題的可能性。

此次評測還引入了一個閉源大模型gpt-4o,因為它是國際領先的大模型,用於比對參考。為確保評分和真實高考基本一致,「司南」團隊邀請有高考閱卷經驗的老師打分。

評測結果顯示,阿里「通義千問」大模型qwen2-72b以546分成為「文科狀元」,「浦語文曲星」以468.5分成為「理科狀元」,這兩個國產大模型的考分都超過了「非開源國際插班生」gpt-4o(文科531分,理科467分)。

AI大模型參加高考全科目評測,文科總分過一本線,理科過二本線 - 天天要聞

7個大模型參加今年高考(新課標卷)的得分情況

以河南省錄取批次線為參考,qwen2-72b、「浦語文曲星」、gpt-4o的文科成績均超過一本線,展現出大模型在語文、歷史、地理、思想政治等科目上深厚的知識儲備和理解能力。而在理科考試上,它們的整體表現弱於文科,反映出大模型在數理推理能力上存在短板。當然,前三名的理科成績均超過二本分數線,體現了大模型在數理推理方面的提升潛力。

自創唐詩「騙」過閱卷老師

完成閱卷後,老師們認為,除了數理推理能力較弱,大模型還存在反思能力、空間想像能力、物理和化學實驗理解能力等短板。

例如,數學考卷中一題為:

已知a(0,3)和p(3,3/2)為橢圓c:x²/a²+y²/b²=1(a>b>0)上兩點

(1)求c的離心率

(2)若過p的直線l交c於另一點b,且△abp的面積為9,求l的方程

由於在解題過程中出現計算錯誤,出現了不正確的求解k值方程式:

不正確的求解k值方程式

面對如此難解的方程式,大模型依然選擇「硬解」,直接蒙了一個答案。而大多數人類考生如果發現計算存在問題,會反思此前若干步驟的計算是否有誤、進行檢查,而非「硬解」方程式。

在空間想像能力上,大模型解答一道立體幾何大題的平均得分率僅為8.5%,遠低於數學平均得分率35.5%。通過檢查大模型的答題,評測團隊發現,它們往往會作出一些完全不符合空間邏輯的推斷,例如:

完全不符合空間邏輯的推斷

大模型對實驗設備和基本實驗步驟的理解也很有限。在回答化學題「取100mmol己-2,5-二酮應選取何種儀器」時,除了gpt-4o,其他大模型都認為應使用量筒,沒有考慮需求數量對儀器選取的影響。其實,如此少量的試劑應選用酸式滴定管。在回答物理題「多用電錶測量電壓表內阻」時,所有大模型均無法準確讀出圖中的電阻值,表明它們對實驗設備的理解很有限。

一本正經地虛構內容,是大模型解答文科題目時會出現的問題。例如,語文考卷中一道填空題為:「唐代詩人寫時事,常常托之於漢代,如『____,____』,就是借漢喻唐,以古方今。」一個大模型的回答是「想知漢武宮香徑,請看長安市醉人」。這句詩存在對仗且的確是「以古方今」,一些閱卷老師誤以為唐代詩人寫過這句,認為大模型答對了,但實際上它是人工智慧虛構的,屬於「原創」詩句。

專家指出,大模型的「幻覺」是一個亟待解決的問題,要通過「通專融合」等途徑有效解決,這樣才能讓大模型應用於各個專業領域。

教育分類資訊推薦

化教師藝術素養為高超美育能力,整體推進學前教育高質量均衡發展,武漢這樣做 - 天天要聞

化教師藝術素養為高超美育能力,整體推進學前教育高質量均衡發展,武漢這樣做

極目新聞記者 狄鑫通訊員 羅相珍9月13日,武漢市「整體推進學前教育高質量均衡發展武漢實踐暨『辦家門口優質幼兒園,我們在行動』」活動在海軍工程大學大禮堂舉行。此次活動由武漢市教育科學研究院主辦,硚口區教科研中心、海軍工程大學幼兒園協辦,來自武漢市幼教同行500餘人參加活動。「辦家門口優質幼兒園」,園長書記們...
@潮州高校畢業生,這場金秋就業茶話會邀你報名 - 天天要聞

@潮州高校畢業生,這場金秋就業茶話會邀你報名

9月20日,潮州市人社局將舉辦「生涯職引 共話成長」金秋就業茶話會,邀請職業指導師圍繞就業話題,與高校畢業生及家長交流對話,提升高校畢業生職業規劃能力和求職能力。現面向潮州高校畢業生開放報名。家庭可以為高校畢業生做些什麼?如何做好職業規劃?
凝「新」聚力!濰坊安丘青雲雙語學校舉行新教師培訓 - 天天要聞

凝「新」聚力!濰坊安丘青雲雙語學校舉行新教師培訓

大眾網記者 李溯 通訊員 王春玲 周曉寒 濰坊報道為幫助新入職教師儘快熟悉崗位職責、適應崗位要求,結合開學一周內新入職教師的崗位表現,9月12日下午在濰坊安丘市青雲雙語學校報告廳舉行了主題為「凝「新聚力 蓄「師」待發」的新教師入職培訓。
濰坊奎文德信現代小學開展「青春與法同行」法治教育 - 天天要聞

濰坊奎文德信現代小學開展「青春與法同行」法治教育

大眾網記者 李溯 通訊員 王儷珺 濰坊報道為紮實推進學校法治宣傳教育工作,提升青少年法律素養,營造良好的校園法治環境推進平安校園建設,全面提升廣大師生法律意識和安全意識,從源頭上預防和減少青少年違法犯罪行為。
清北等十多所高校月餅大比拼,你最愛哪一款?學子:「我真的不挑,一個口味來一個就行……」 - 天天要聞

清北等十多所高校月餅大比拼,你最愛哪一款?學子:「我真的不挑,一個口味來一個就行……」

中秋佳節即將到來,北大清華等國內十多所高校融入自身獨特元素,紛紛推出精心設計的月餅,一起來看看都有哪些新創意吧!北京大學北京大學今年推出了兩款月餅禮盒,一款名為「九州團圓」月餅禮盒,以校園所含九大園林為設計元素,另一款名為「月明學海」月餅禮盒,造型以校園風物為原型。清華大學清華大學推出了傳統廣式月餅...