俗話說,「授人以魚,不如授人以漁。」即:送人一條魚,不如教他學會如何捕魚。
如今,這句話背後的思想,也被應用在了強化學習(RL)中。
剛剛,由「Transformer八子」之一 Llion Jones 聯合創立的 AI 初創公司 Sakana AI 提出了一種新的 RL 範式——「強化學習教師」(Reinforcement Learned Teacher,RLT) 。
據介紹,RLT 通過學習如何教學而非直接解決問題,來教會大語言模型(LLM)如何進行推理,有效解決了傳統教師模型 RL 過程耗時長、成本高、應用領域窄等諸多難題。
圖|強化學習教師(RLT)通過訓練教師模型從問答對中生成解釋,來優化學生模型的理解能力。與其從頭開始解決問題,教師的獎勵應基於其解釋的有效性,即這些解釋如何幫助學生恢復正確的解決方案。
在這一過程中,RLT 像人類教師一樣「學習如何教學」,並基於已知解決方案輸出清晰的分步解釋。教師模型不再因自行解決問題而獲得獎勵,而是因其解釋對學生模型有多大幫助而獲得獎勵。這種反饋機制使得教師模型的訓練與其「幫助學生」的實際目的相一致,提升了訓練效果。
結果顯示,在教授推理技能方面,7B 大小的教師模型的表現超過了規模大幾個數量級的模型(如 671B DeepSeek-R1)。而且,這一結果不僅適用於規模相同的學生模型,也適用於規模遠大於教師模型(如 32B)的學生模型。
相關研究論文以「Reinforcement Learning Teachers of Test Time Scaling」為題,已發表在預印本網站 arXiv 上。
強化學習新範式:學習「教學」
受人類教師工作方式的啟發,正如一位優秀的人類教師無需重新發現數學定理就能解釋它們一樣,RLT 在輸入提示中同時獲得每個問題的題目和正確答案,它們的任務是通過有幫助的、分步解釋來幫助學生模型從中學習。
這項研究的主要亮點在於:改變了訓練教師模型的方式。RLT 被訓練以最大化其解釋的清晰度和指導性,類似於人類教師在課堂上評估學生理解程度的方式。具體來說,如果學生模型能夠輕鬆理解教師模型對問題的解釋所給出的正確解決方案,這表明教師模型教學效果好。
這一方法解決了傳統「學習解決」框架中的兩大問題。首先,這一新訓練循環將教師模型訓練與其實際目的(即通過蒸餾/冷啟動機制幫助學生)相對齊,使其效果顯著提升。其次,向 RLT 同時輸入問題及其正確答案,使研究團隊能夠使用小而高效的教師模型,這些模型在沒有輸入的情況下無法獨立解決問題。
相比於規模更大的教師模,如 DeepSeek-R1(671B),7B RLT 模型在數學和科學領域的多個挑戰性基準測試中表現更優。
值得一提的是,當使用 7B RLT 模型訓練更大規模(如 32B)的學生模型時,也表現出了更好的結果。這表明,小型專業化教師模型能夠將深度推理技能轉移到規模大得多的學生模型中。
他們還發現,RLT 與傳統 RL 方法相輔相成。當作為起點使用時,RLT 幫助學生模型達到了更高的性能水平。從成本角度來看,差異非常顯著:使用 RLT 訓練 32B 學生模型在單個計算節點上不到一天即可完成,而傳統 RL 在相同硬件上則需要數月時間。
邁向更先進、更經濟的推理模型
研究團隊表示,RLT 重新定義了構建推理模型的方式。與從頭開始訓練模型解決問題不同,RLT 訓練模型清晰地解釋已知解決方案,這與經驗豐富的人類教師相似。這種轉變使得將 RL 應用於此前被認為超出語言模型直接處理能力的領域成為可能。
同時,RLT 可能大大降低先進模型訓練的成本。無需在每個階段都依賴龐大的系統,我們可以訓練小型、專業化的教師模型,並利用它們高效地訓練更大規模的模型。
展望未來,RLT 框架暗示着一個更令人着迷的構想:一個同時扮演教師和學生雙重角色的模型。通過為自身生成解釋,模型能夠隨着時間的推移,逐步學會如何更好地自我教學。
整理:學術君