AI大模型參加高考全科目評測，文科總分過一本線，理科過二本線

2024年07月30日00:30:29 教育 7285

人工智慧大模型參加中國高考，可以得幾分？近日，大模型開源開放評測體系「司南」（opencompass）對中外7個人工智慧大模型進行了今年高考（新課標卷）全科目測試，結果顯示：上海人工智慧實驗室「書生·浦語2.0系列文曲星」大模型、阿里「通義千問」大模型qwen2-72b、openai的gpt-4o排名文、理科前三名，前三名「考生」的文、理科成績分別超過了一本、二本線（以今年高考人數最多的河南省分數線為參考）。

閱卷老師認為，儘管頭部大模型在高考中發揮較好，但與優秀真人考生仍存在明顯差距，在邏輯推理、知識靈活運用方面能力較弱，有待研發團隊今後加強這些方面的訓練和調優。

國產大模型考分超過gpt-4o

司南相關負責人介紹，組織大模型參加高考，是為了評測當前大模型的真實水平，找准問題，推動技術進步。此次高考評測採用全卷考試形式，進行全卷評分，大模型「考生」要完成除英語聽力外（默認大模型獲得滿分30分），包括帶圖題在內的所有題型。

參與評測的6個大模型均為開源模型，分別是阿里巴巴開源的qwen2-57b和qwen2-72b、上海人工智慧實驗室開源的「浦語文曲星」、智譜華章開源的glm-4-9b、零一萬物開源的yi-1.5-34b、法國企業mistral開源的mixtral8x22b。這些模型都在今年高考前開源，排除了泄題的可能性。

此次評測還引入了一個閉源大模型gpt-4o，因為它是國際領先的大模型，用於比對參考。為確保評分和真實高考基本一致，「司南」團隊邀請有高考閱卷經驗的老師打分。

評測結果顯示，阿里「通義千問」大模型qwen2-72b以546分成為「文科狀元」，「浦語文曲星」以468.5分成為「理科狀元」，這兩個國產大模型的考分都超過了「非開源國際插班生」gpt-4o（文科531分，理科467分）。

7個大模型參加今年高考（新課標卷）的得分情況

以河南省錄取批次線為參考，qwen2-72b、「浦語文曲星」、gpt-4o的文科成績均超過一本線，展現出大模型在語文、歷史、地理、思想政治等科目上深厚的知識儲備和理解能力。而在理科考試上，它們的整體表現弱於文科，反映出大模型在數理推理能力上存在短板。當然，前三名的理科成績均超過二本分數線，體現了大模型在數理推理方面的提升潛力。

自創唐詩「騙」過閱卷老師

完成閱卷後，老師們認為，除了數理推理能力較弱，大模型還存在反思能力、空間想像能力、物理和化學實驗理解能力等短板。

例如，數學考卷中一題為：

已知a（0,3）和p（3,3/2）為橢圓c:x²/a²+y²/b²=1（a>b>0）上兩點

（1）求c的離心率

（2）若過p的直線l交c於另一點b,且△abp的面積為9,求l的方程

由於在解題過程中出現計算錯誤，出現了不正確的求解k值方程式：

不正確的求解k值方程式

面對如此難解的方程式，大模型依然選擇「硬解」，直接蒙了一個答案。而大多數人類考生如果發現計算存在問題，會反思此前若干步驟的計算是否有誤、進行檢查，而非「硬解」方程式。

在空間想像能力上，大模型解答一道立體幾何大題的平均得分率僅為8.5%，遠低於數學平均得分率35.5%。通過檢查大模型的答題，評測團隊發現，它們往往會作出一些完全不符合空間邏輯的推斷，例如：

完全不符合空間邏輯的推斷

大模型對實驗設備和基本實驗步驟的理解也很有限。在回答化學題「取100mmol己-2,5-二酮應選取何種儀器」時，除了gpt-4o，其他大模型都認為應使用量筒，沒有考慮需求數量對儀器選取的影響。其實，如此少量的試劑應選用酸式滴定管。在回答物理題「多用電錶測量電壓表內阻」時，所有大模型均無法準確讀出圖中的電阻值，表明它們對實驗設備的理解很有限。

一本正經地虛構內容，是大模型解答文科題目時會出現的問題。例如，語文考卷中一道填空題為：「唐代詩人寫時事，常常托之於漢代，如『____，____』,就是借漢喻唐，以古方今。」一個大模型的回答是「想知漢武宮香徑，請看長安市醉人」。這句詩存在對仗且的確是「以古方今」，一些閱卷老師誤以為唐代詩人寫過這句，認為大模型答對了，但實際上它是人工智慧虛構的，屬於「原創」詩句。

專家指出，大模型的「幻覺」是一個亟待解決的問題，要通過「通專融合」等途徑有效解決，這樣才能讓大模型應用於各個專業領域。