7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊

2025年06月25日14:50:14 教育 8828

不圓 發自 凹非寺

量子位 | 公眾號 qbitai

thinking模式當道,教師模型也該學會「啟發式」教學了——

由transformer作者之一llion jones創立的明星ai公司sakana ai,帶着他們的新方法來了!

這個方法要求教師模型像優秀的人類教師一樣,根據已知解決方案輸出清晰的逐步解釋,而不再是從頭開始自己解決。

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

用sanaka ai的新方法訓練出的7b小模型,在傳授推理技能方面,比671b的deepseek-r1還要有效。

訓練比自己大3倍的學生模型也不在話下。

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

對此有網友評價:我們剛剛才意識到,最好的老師不是房間里最聰明的人。

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

像人類老師一樣

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

許多高級推理模型,如deepseek-r1,遵循兩階段的訓練過程:首先訓練教師模型,然後使用其輸出訓練學生模型,最終產品為學生模型。

傳統上,這些教師模型通過昂貴的強化學習(rl)進行訓練,模型必須從頭學習解決複雜問題,只有在得到正確答案時才會獲得獎勵:

先讓教師模型得到問題的答案,再把答案仔細過濾並重新用作學生模型的訓練數據。

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

這種方法緩慢、昂貴且往往過於偏狹,過於依賴教師模型自身能力。因為教師模型拿到的僅僅只有問題,它們需要自己思考給出結果。

而sanaka ai的新方法不再通過解決問題來教學,而是讓新的強化學習教師(rlts)「學會教學」

要求它們根據已知解決方案輸出清晰的逐步解釋,就像優秀的人類教師一樣。

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

就像一位好教師不需要重新發現數學定理來解釋它們一樣,rlts在輸入提示中既獲得問題的內容,也獲得每個問題的正確答案

它們的任務是提供有助於學生模型學習的、逐步的詳細解釋,從而連接這些知識點。如果學生模型能夠根據教師對問題的解釋輕鬆理解正確解決方案,那麼這就是rlts做得好的信號。

也就是說,對rlts的獎勵不再是能自己解決問題,而是能解釋對學生模型有多有幫助。

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

sanaka ai的新方法解決了傳統方法中的兩個問題:

首先,新方法的訓練循環使教師訓練與其真正目的(為學生進行蒸餾/冷啟動提供幫助)保持一致,從而大大提高了效率。

其次,將問題和正確答案同時輸入rlt,能幫助原本無法獨立解決問題的小型模型學會教學。

這些特性使sanaka ai的新方法能更快、更經濟、更有效地訓練出具有強大推理能力的學生模型。

小型教師模型的「不合理但有效」

為了驗證新方法的有效性,sanaka ai用新方法訓練了一個7b的rlt小模型作為教學模型與此前最先進的方法進行比較。

競爭方法使用規模更大的模型,如deepseek-r1和qwq,並結合gpt-4o-mini等工具在用於訓練學生模型之前清理其輸出,以獲得額外幫助。

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

結果發現:使用相同的qwen2.5學生模型、相同的問題以及相同的評估設置,rlt以遠少的計算量取得了比deepseek-r1和qwq更好的效果。

把學生模型的規模擴大,結果同樣令人驚訝:7b的rlt成功訓練了一個32b的學生模型,其規模是自己四倍以上,並取得了優異的成果。

sanaka ai的新方法還可以和傳統rl方法相輔相成:

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

上圖展示了在2024年美國邀請數學考試(aime)、競賽數學和研究生級問答基準(gpqa)上的平均性能。

新方法和傳統rl方法聯合使用,使rlt獲得了改進性能,並補充了傳統rl方法在問題解決方面的應用。

用作起點時,rlt幫助學生模型達到了更高的性能水平。

從成本角度來看,差異非常顯著:使用rlt訓練32b的學生模型僅需單個計算節點一天時間,而傳統rl方法在相同硬件上需要數月。

一項定性分析揭示了rlts提供的解釋與deepseek-r1的蒸餾軌跡之間存在一些差異:

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM | Transformer作者團隊 - 天天要聞

deepseek-r1的輸出常常依賴於外部工具,例如計算器、網絡上的討論以及玩梗,包括一些具有誤導性的內容。

相比之下,rlt提供的解釋避免了令人困惑的語言,並增加了額外的邏輯步驟來幫助學生。

這些直觀的改進能夠轉化為學生語言模型的改進學習,像人類專家一樣簡潔且清晰。

參考鏈接:

https://x.com/sakanaailabs/status/1936965841188425776

博客:https://sakana.ai/rlt

論文:https://arxiv.org/abs/2506.08388代碼:github.com/sakanaai/rlt

教育分類資訊推薦

高考601分的腦癱男孩:拋開勵志濾鏡,我只是一個普通人 - 天天要聞

高考601分的腦癱男孩:拋開勵志濾鏡,我只是一個普通人

高考總分601分,運動障礙型腦癱,似乎毫不相干的兩種狀態疊加到了一個人身上。男孩是內蒙古包頭市第九十五中學的學生韓澤宇,其語文135.5分,數學94分,外語139分。總分包含5分少數民族政策性加分。 接受九派新聞採訪時,韓澤宇並不避諱談論身體上的疾病。在他看來,自己是幸運的,儘管下肢運動功能受限,但上肢運動功能和...
36歲清華畢業生李龍再戰高考:花了約100天備考,查分預計無緣清華北大醫學院 - 天天要聞

36歲清華畢業生李龍再戰高考:花了約100天備考,查分預計無緣清華北大醫學院

6月25日,36歲再考清華的清華畢業生李龍告訴紅星新聞,他今年參加高考的第一目標是清華、北大的醫學院,6月24日查分時看到成績後並不太滿意,但在黑龍江全省排名還可以,四川大學的華西醫學院也是他的選擇之一。李龍認為被第一目標錄取的可能性很小,被其他學校錄取的機會要大一些。 ▲李龍發佈視頻分享查分經過去年,李龍...
31省份高考分數線來了! - 天天要聞

31省份高考分數線來了!

截至目前31省份高考分數線已公布北京普通本科錄取控制分數線:430分特殊類型招生錄取控制分數線:519分上海本科錄取控制分數線:402分特殊類型招生控制分數線:505分(上海市高考成績滿分為660分)天津普通本科錄取控制分數線:476分特殊類型資格考生最低錄取控制線:562分重慶普通類歷史類:本科批438分,特殊類型資...
「校政企」三向奔赴,畢業直達offer不迷路! - 天天要聞

「校政企」三向奔赴,畢業直達offer不迷路!

畢業季來臨,面對高校畢業生就業新形勢,如何精準匹配崗位需求、提升人才留鎮率?金山張堰鎮探索出政府搭台、校企唱戲的協同路徑。鎮社區事務受理服務中心(以下簡稱「鎮受理中心」)聯合上海中僑職業技術大學及本地優質企業,通過職業賦能前移、資源深度整合與長效跟蹤服務,構建起促進高校英才紮根發展的全鏈條服務體系。...
周鴻禕談清華讀博:做了60多頁開題報告被老師批,要大改 - 天天要聞

周鴻禕談清華讀博:做了60多頁開題報告被老師批,要大改

【TechWeb】6月25日消息,近日高考成績陸續放榜,高考填報志願學校又成為家長學生關注的焦點。360創始人周鴻禕發文稱,前幾天我分享了自己本科和碩士的就讀經歷,向大家推薦了我的母校西安交通大學。沒想到引起不少網友的興趣,大家都讓我再講講清華讀博的感受。周鴻禕提到:「重返校園,被比我年輕的老師喊『紅衣大叔』;...