清華團隊NeurIPS顛覆性研究:強化學習沒讓AI變聰明?

哈嘍,大家好,老寰這篇評論,主要來分析清華團隊NeurIPS顛覆性研究:強化學習沒讓AI變聰明?

2024年12月10日至15日,加拿大溫哥華舉辦的NeurIPS大會上,一幕罕見場景引發關注。

清華大學團隊演講結束後,來自歐美等地的頂尖學者排成長隊提問。他們帶來的論文不僅拿下大會最佳論文亞軍,更顛覆了大模型領域的普遍認知。

顛覆性發現:挑戰行業默認「真理」

業界一直默認,帶可驗證獎勵的強化學習能讓大模型實現AlphaGo式的能力飛躍,探索全新推理策略。

但清華宋士吉、黃高團隊通過實驗給出否定答案。他們以Pass@K為核心指標,在數學、代碼、AIME24等任務中展開測試,該指標K=1衡量一次回答正確率,K增大則反映模型真實知識空間。

實驗反轉:大K值下原始模型反超

數據呈現戲劇性結果。2.57B模型在AIME24任務中,強化學習模型Pass@1從0.05升至0.15,提升200%,符合行業認知。

但當K≥256尤其是1024時,原始模型準確率達0.77,遠超強化學習模型的0.60,能力邊界上更是高出28個百分點。

真相揭秘:僅重排概率而非拓展能力

團隊解釋,強化學習並未讓模型學會新知識,只是「重排概率分佈」,把已有正確路徑推到前列。

這意味着它僅優化「表達」而非「認知本體」。不同於圍棋明確的獎勵空間,大語言模型推理獎勵稀疏、反饋滯後,難以實現質變,這一結論獲四位審稿人滿分認可。

行業啟示:未來方向指向基座模型與新技術

恰逢2024年底至2025年初,OpenAI o1、DeepSeek-R1等強化學習模型密集發佈,DeepSeek-R1更是取得AIME24 79.8% Pass@1的成績,讓行業熱情高漲。

清華研究提醒業界,這些亮眼表現或只是知識重排。真正突破需深耕基座模型,而非依賴強化學習「表面功夫」。

論文指出,蒸餾技術更有望實現模型進化,未來還需在抽象空間構建、過程級獎勵引導、多智能體探索等方向發力,這也為全球AI研究指明了新路徑。