「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1

2025年06月24日11:52:04 教育 1475

「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1 - 天天要聞


俗話說,“授人以魚,不如授人以漁。”即:送人一條魚,不如教他學會如何捕魚。


如今,這句話背後的思想,也被應用在了強化學習(RL)中


剛剛,由“Transformer八子”之一 Llion Jones 聯合創立的 AI 初創公司 Sakana AI 提出了一種新的 RL 範式——“強化學習教師”(Reinforcement Learned Teacher,RLT) 。


據介紹,RLT 通過學習如何教學而非直接解決問題,來教會大語言模型(LLM)如何進行推理,有效解決了傳統教師模型 RL 過程耗時長、成本高、應用領域窄等諸多難題。


「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1 - 天天要聞

圖|強化學習教師(RLT)通過訓練教師模型從問答對中生成解釋,來優化學生模型的理解能力。與其從頭開始解決問題,教師的獎勵應基於其解釋的有效性,即這些解釋如何幫助學生恢復正確的解決方案。


在這一過程中,RLT 像人類教師一樣“學習如何教學”,並基於已知解決方案輸出清晰的分步解釋。教師模型不再因自行解決問題而獲得獎勵,而是因其解釋對學生模型有多大幫助而獲得獎勵。這種反饋機制使得教師模型的訓練與其「幫助學生」的實際目的相一致,提升了訓練效果。


「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1 - 天天要聞


結果顯示,在教授推理技能方面,7B 大小的教師模型的表現超過了規模大幾個數量級的模型(如 671B DeepSeek-R1)。而且,這一結果不僅適用於規模相同的學生模型,也適用於規模遠大於教師模型(如 32B)的學生模型。


相關研究論文以“Reinforcement Learning Teachers of Test Time Scaling”為題,已發表在預印本網站 arXiv 上。


「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1 - 天天要聞


強化學習新範式:學習「教學」


受人類教師工作方式的啟發,正如一位優秀的人類教師無需重新發現數學定理就能解釋它們一樣,RLT 在輸入提示中同時獲得每個問題的題目和正確答案,它們的任務是通過有幫助的、分步解釋來幫助學生模型從中學習


「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1 - 天天要聞


這項研究的主要亮點在於:改變了訓練教師模型的方式。RLT 被訓練以最大化其解釋的清晰度和指導性,類似於人類教師在課堂上評估學生理解程度的方式。具體來說,如果學生模型能夠輕鬆理解教師模型對問題的解釋所給出的正確解決方案,這表明教師模型教學效果好。


這一方法解決了傳統“學習解決”框架中的兩大問題。首先,這一新訓練循環將教師模型訓練與其實際目的(即通過蒸餾/冷啟動機制幫助學生)相對齊,使其效果顯著提升。其次,向 RLT 同時輸入問題及其正確答案,使研究團隊能夠使用小而高效的教師模型,這些模型在沒有輸入的情況下無法獨立解決問題。


相比於規模更大的教師模,如 DeepSeek-R1(671B),7B RLT 模型在數學和科學領域的多個挑戰性基準測試中表現更優。


「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1 - 天天要聞


值得一提的是,當使用 7B RLT 模型訓練更大規模(如 32B)的學生模型時,也表現出了更好的結果。這表明,小型專業化教師模型能夠將深度推理技能轉移到規模大得多的學生模型中


「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1 - 天天要聞


他們還發現,RLT 與傳統 RL 方法相輔相成。當作為起點使用時,RLT 幫助學生模型達到了更高的性能水平。從成本角度來看,差異非常顯著:使用 RLT 訓練 32B 學生模型在單個計算節點上不到一天即可完成,而傳統 RL 在相同硬件上則需要數月時間


「強化學習教師」登場!7B模型擊敗671B DeepSeek-R1 - 天天要聞



邁向更先進、更經濟的推理模型


研究團隊表示,RLT 重新定義了構建推理模型的方式。與從頭開始訓練模型解決問題不同,RLT 訓練模型清晰地解釋已知解決方案,這與經驗豐富的人類教師相似。這種轉變使得將 RL 應用於此前被認為超出語言模型直接處理能力的領域成為可能。


同時,RLT 可能大大降低先進模型訓練的成本。無需在每個階段都依賴龐大的系統,我們可以訓練小型、專業化的教師模型,並利用它們高效地訓練更大規模的模型。


展望未來,RLT 框架暗示着一個更令人着迷的構想:一個同時扮演教師和學生雙重角色的模型。通過為自身生成解釋,模型能夠隨着時間的推移,逐步學會如何更好地自我教學。


整理:學術君

教育分類資訊推薦

玉勝社區:護航中考顯溫情 聚力點亮學子夢 - 天天要聞

玉勝社區:護航中考顯溫情 聚力點亮學子夢

為保障2025年中考期間考生及家長的出行安全與便利,近日,泡崖街道玉勝社區聯合甘井子區交警大隊、郭明義愛心團隊大連燕子志願服務隊,在弘文中學中考考點周邊開展護航中考志願服務活動,以實際行動為考生營造安全、有序、溫馨的考試環境。中考期間,志願服務隊與交警支隊提前部署,交警支隊幹警重點針對考點周邊路段實施交...
上海6.2萬份高考成績單全速打印 今日開始投遞 - 天天要聞

上海6.2萬份高考成績單全速打印 今日開始投遞

23日,上海市6.2萬份高考成績單製作打印完畢,於今天(24日)開始陸續投遞。 23日下午,由上海教育考試院提供的高考成績單數據,被傳送至上海郵政製作處理中心。經數據分類處理,2台高速打印....
廣州越秀區舉行公辦小學升初中電腦派位,今天13時可查結果 - 天天要聞

廣州越秀區舉行公辦小學升初中電腦派位,今天13時可查結果

6月24日上午,2025年越秀區公辦小學升公辦初中電腦派位現場會在越秀區教育局一樓禮堂舉行。廣州市越秀區相關職能部門代表,區轄部分中小學校、畢業生家長代表,以及新聞媒體共同出席。今年,越秀區小學畢業生有12888人,與去年小學畢業生基本持平。經越秀區教育局嚴格審核,其中有1165名學生符合政策批准提前錄取,這些學生...
呼和浩特:“後高考經濟”催火市場 - 天天要聞

呼和浩特:“後高考經濟”催火市場

隨着2025年高考落幕,呼和浩特“後高考經濟”持續升溫,電子產品、考駕照、畢業旅行、技能培訓等迎來消費高峰。電子產品消費:升學剛需引發“科技裝備熱”高考結束後,呼和浩特各大數碼產品賣場內客流量顯著增加。
2025年魏都區學區劃分出爐 - 天天要聞

2025年魏都區學區劃分出爐

2025年魏都區義務教育招生入學工作實施方案按照中共魏都區委辦公室、魏都區人民政府辦公室印發《關於進一步做好義務教育招生入學工作的實施意見》和許昌市教育局《關於做好2025年義務教育陽光招生工作的通知》要求,結合我區實際,制定本實施方案。