清華團隊NeurIPS顛覆性研究：強化學習沒讓AI變聰明？

分類：科技

瀏覽數：1586

2025-12-23

哈嘍，大家好，老寰這篇評論，主要來分析清華團隊NeurIPS顛覆性研究：強化學習沒讓AI變聰明？

2024年12月10日至15日，加拿大溫哥華舉辦的NeurIPS大會上，一幕罕見場景引發關注。

清華大學團隊演講結束後，來自歐美等地的頂尖學者排成長隊提問。他們帶來的論文不僅拿下大會最佳論文亞軍，更顛覆了大模型領域的普遍認知。

顛覆性發現：挑戰行業默認「真理」

業界一直默認，帶可驗證獎勵的強化學習能讓大模型實現AlphaGo式的能力飛躍，探索全新推理策略。

但清華宋士吉、黃高團隊通過實驗給出否定答案。他們以Pass@K為核心指標，在數學、代碼、AIME24等任務中展開測試，該指標K=1衡量一次回答正確率，K增大則反映模型真實知識空間。

數據呈現戲劇性結果。2.57B模型在AIME24任務中，強化學習模型Pass@1從0.05升至0.15，提升200%，符合行業認知。

但當K≥256尤其是1024時，原始模型準確率達0.77，遠超強化學習模型的0.60，能力邊界上更是高出28個百分點。

團隊解釋，強化學習並未讓模型學會新知識，只是「重排概率分佈」，把已有正確路徑推到前列。

這意味着它僅優化「表達」而非「認知本體」。不同於圍棋明確的獎勵空間，大語言模型推理獎勵稀疏、反饋滯後，難以實現質變，這一結論獲四位審稿人滿分認可。

恰逢2024年底至2025年初，OpenAI o1、DeepSeek-R1等強化學習模型密集發佈，DeepSeek-R1更是取得AIME24 79.8% Pass@1的成績，讓行業熱情高漲。

清華研究提醒業界，這些亮眼表現或只是知識重排。真正突破需深耕基座模型，而非依賴強化學習「表面功夫」。

論文指出，蒸餾技術更有望實現模型進化，未來還需在抽象空間構建、過程級獎勵引導、多智能體探索等方向發力，這也為全球AI研究指明了新路徑。

科技分類資訊推薦