人工智慧大模型參加中國高考,可以得幾分?近日,大模型開源開放評測體系「司南」(opencompass)對中外7個人工智慧大模型進行了今年高考(新課標卷)全科目測試,結果顯示:上海人工智慧實驗室「書生·浦語2.0系列文曲星」大模型、阿里「通義千問」大模型qwen2-72b、openai的gpt-4o排名文、理科前三名,前三名「考生」的文、理科成績分別超過了一本、二本線(以今年高考人數最多的河南省分數線為參考)。
閱卷老師認為,儘管頭部大模型在高考中發揮較好,但與優秀真人考生仍存在明顯差距,在邏輯推理、知識靈活運用方面能力較弱,有待研發團隊今後加強這些方面的訓練和調優。
國產大模型考分超過gpt-4o
司南相關負責人介紹,組織大模型參加高考,是為了評測當前大模型的真實水平,找准問題,推動技術進步。此次高考評測採用全卷考試形式,進行全卷評分,大模型「考生」要完成除英語聽力外(默認大模型獲得滿分30分),包括帶圖題在內的所有題型。
參與評測的6個大模型均為開源模型,分別是阿里巴巴開源的qwen2-57b和qwen2-72b、上海人工智慧實驗室開源的「浦語文曲星」、智譜華章開源的glm-4-9b、零一萬物開源的yi-1.5-34b、法國企業mistral開源的mixtral8x22b。這些模型都在今年高考前開源,排除了泄題的可能性。
此次評測還引入了一個閉源大模型gpt-4o,因為它是國際領先的大模型,用於比對參考。為確保評分和真實高考基本一致,「司南」團隊邀請有高考閱卷經驗的老師打分。
評測結果顯示,阿里「通義千問」大模型qwen2-72b以546分成為「文科狀元」,「浦語文曲星」以468.5分成為「理科狀元」,這兩個國產大模型的考分都超過了「非開源國際插班生」gpt-4o(文科531分,理科467分)。
7個大模型參加今年高考(新課標卷)的得分情況
以河南省錄取批次線為參考,qwen2-72b、「浦語文曲星」、gpt-4o的文科成績均超過一本線,展現出大模型在語文、歷史、地理、思想政治等科目上深厚的知識儲備和理解能力。而在理科考試上,它們的整體表現弱於文科,反映出大模型在數理推理能力上存在短板。當然,前三名的理科成績均超過二本分數線,體現了大模型在數理推理方面的提升潛力。
自創唐詩「騙」過閱卷老師
完成閱卷後,老師們認為,除了數理推理能力較弱,大模型還存在反思能力、空間想像能力、物理和化學實驗理解能力等短板。
例如,數學考卷中一題為:
已知a(0,3)和p(3,3/2)為橢圓c:x²/a²+y²/b²=1(a>b>0)上兩點
(1)求c的離心率
(2)若過p的直線l交c於另一點b,且△abp的面積為9,求l的方程
由於在解題過程中出現計算錯誤,出現了不正確的求解k值方程式:
不正確的求解k值方程式
面對如此難解的方程式,大模型依然選擇「硬解」,直接蒙了一個答案。而大多數人類考生如果發現計算存在問題,會反思此前若干步驟的計算是否有誤、進行檢查,而非「硬解」方程式。
在空間想像能力上,大模型解答一道立體幾何大題的平均得分率僅為8.5%,遠低於數學平均得分率35.5%。通過檢查大模型的答題,評測團隊發現,它們往往會作出一些完全不符合空間邏輯的推斷,例如:
完全不符合空間邏輯的推斷
大模型對實驗設備和基本實驗步驟的理解也很有限。在回答化學題「取100mmol己-2,5-二酮應選取何種儀器」時,除了gpt-4o,其他大模型都認為應使用量筒,沒有考慮需求數量對儀器選取的影響。其實,如此少量的試劑應選用酸式滴定管。在回答物理題「多用電錶測量電壓表內阻」時,所有大模型均無法準確讀出圖中的電阻值,表明它們對實驗設備的理解很有限。
一本正經地虛構內容,是大模型解答文科題目時會出現的問題。例如,語文考卷中一道填空題為:「唐代詩人寫時事,常常托之於漢代,如『____,____』,就是借漢喻唐,以古方今。」一個大模型的回答是「想知漢武宮香徑,請看長安市醉人」。這句詩存在對仗且的確是「以古方今」,一些閱卷老師誤以為唐代詩人寫過這句,認為大模型答對了,但實際上它是人工智慧虛構的,屬於「原創」詩句。
專家指出,大模型的「幻覺」是一個亟待解決的問題,要通過「通專融合」等途徑有效解決,這樣才能讓大模型應用於各個專業領域。