月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA

2025年06月22日17:10:13 遊戲 3112

機器之心報道

編輯:楊文、澤南

昨天,月之暗面發了篇博客,介紹了一款名為 kimi-researcher 的自主 agent。

這款 agent 擅長多輪搜索和推理,平均每項任務執行 23 個推理步驟,訪問超過 200 個網址。它是基於 kimi k 系列模型的內部版本構建,並完全通過端到端智能體強化學習進行訓練,也是國內少有的基於自研模型打造的 agent。

月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA - 天天要聞

github 鏈接:https://moonshotai.github.io/kimi-researcher/

在「人類最後一場考試」(humanity's last exam) 中,kimi-researcher 取得了 26.9% 的 pass@1 成績,創下最新的 sota 水平,pass@4 準確率也達到了 40.17%。

從初始的 8.6% hle 分數開始,kimi-researcher 幾乎完全依靠端到端的強化學習訓練將成績提升至 26.9%,強有力地證明了端到端智能體強化學習在提升 agent 智能方面的巨大潛力。

kimi-researcher 還在多個複雜且極具挑戰性的實際基準測試中表現出色。在 xbench (一款旨在將 ai 能力與實際生產力相結合的全新動態、專業對齊套件)上,kimi-researcher 在 xbench-deepsearch 子任務上平均 pass@1 達到了 69% 的分數(4 次運行的平均值),超越了諸如 o3 等帶有搜索工具的模型。在多輪搜索推理(如 frames、seal-0)和事實信息檢索(如 simpleqa)等基準測試中,kimi-researcher 同樣取得了優異成績。

月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA - 天天要聞

舉個例子。我們想找一部外國動畫電影,但只記得大概劇情:

我想找一部外國的動畫電影,講的是一位公主被許配給一個強大的巫師。我記得她被關在塔里,等着結婚的時機。有一次她偷偷溜進城裡,看人們縫紉之類的事情。總之,有一天幾位王子從世界各地帶來珍貴禮物,她發現其中一位王子為了得到一顆寶珠作為禮物,曾與當地人激烈交戰。她指責他是小偷,因為他從他們那兒偷走了聖物。

隨後,一個巫師說服國王相信她在撒謊,說她被某種邪靈附體,並承諾要為她「凈化」,作為交換條件是娶她為妻。然後巫師用魔法讓她變成一個成年女子,並把她帶走。他把她關進地牢,但她有一枚可以許三個願望的戒指。

由於被施了魔法,讓她失去了逃跑的意志,她把前兩個願望浪費在了一些愚蠢的東西上,比如一塊布或者一張床之類的……然後她好像逃出來了……並且耍了那個巫師一把……她後來還找到了一塊可以生出水的石頭……我記得還有人被變成青蛙……

整部電影發生在一個有點後末日設定的世界裏,是一個古老魔法文明崩塌幾百年之後的背景。如果有人知道這是什麼電影,請告訴我。我一直在找這部電影,已經找了好久了。

kimi-researcher 就會根據給定的模糊信息進行檢索,最終識別出該電影為《阿瑞特公主》,並一一找出該電影與劇情描述之間的對應關係。

月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA - 天天要聞

此外,它還能進行學術研究、法律與政策分析、臨床證據審查、企業財報分析等。

kimi–researcher 現已開始逐步向用戶推出,可以在 kimi 內實現對任意主題的深入、全面研究。月之暗面也計劃在接下來的幾個月內開源 kimi–researcher 所依賴的基礎預訓練模型及其強化學習模型。

端到端的智能體強化學習

kimi–researcher 是一個自主的智能體與思維模型,旨在通過多步規劃、推理和工具使用來解決複雜問題。它利用了三個主要工具:一個並行的實時內部搜索工具;一個用於交互式網頁任務的基於文本的瀏覽器工具;以及一個用於自動執行代碼的編碼工具。

傳統 agent 開發存在以下幾個關鍵限制:

  • 基於工作流的系統:多智能體工作流將角色分配給特定智能體,並使用基於提示的工作流進行協調。雖然有效,但它們依賴於特定的語言模型版本,並且在模型或環境發生變化時需要頻繁手動更新,從而限制了系統的可擴展性和靈活性。

  • 帶監督微調的模仿學習(sft):模仿學習能使模型很好地對齊人類演示,但在數據標註方面存在困難,尤其是在具有長時間跨度、動態環境中的智能體任務中。此外,sft 數據集通常與特定工具版本強耦合,導致隨着工具的演變,其泛化能力會下降。

端到端的智能體強化學習(agentic rl)訓練的是一個能夠整體性解決問題的單一模型:給定一個查詢,智能體會探索大量可能的策略,通過獲得正確解答的獎勵進行學習,並從整個決策軌跡中總結經驗。與監督微調(sft)不同,端到端方法天然適應長程、基於當前策略的推理過程,並能動態適應工具與環境的變化;也不同於模塊化方法,它將規劃、感知、工具使用等能力融合在一個模型中統一學習,無需手工編寫規則或工作流模板。

openai 的 deep research 等先前研究也展示了這種方法的強大性能,但它也帶來了新的挑戰:

  • 動態環境:即使面對相同的查詢,環境結果也可能隨時間發生變化,智能體必須具備適應不斷變化條件的能力。目標是實現對分佈變化的魯棒泛化能力。

  • 長程任務:kimi–researcher 每條軌跡可執行超過 70 次搜索查詢,使用的上下文窗口長度甚至達數十萬 token。這對模型的記憶管理能力以及長上下文處理能力提出了極高要求。

  • 數據稀缺:高質量的用於智能體問答的強化學習數據集非常稀缺。該研究團隊通過自動合成訓練數據的方式解決這一問題,從而實現無需人工標註的大規模學習。

  • 執行效率:多輪推理和頻繁工具調用可能導致訓練效率低下,gpu 資源利用不足。優化 rollout 效率是實現可擴展、實用的智能體強化學習訓練的關鍵。

研究方法

kimi–researcher 是通過端到端的強化學習進行訓練的。研究團隊在多個任務領域中觀察到了智能體性能的持續提升。圖 2-a 展示了 kimi–researcher 在強化學習過程中整體訓練準確率的變化趨勢;圖 2-b 則呈現了模型在若干內部數據集上的性能表現。

月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA - 天天要聞

訓練數據

為了解決高質量智能體數據集稀缺的問題,研究團隊在訓練語料的構建上採取了兩種互補的策略。

首先,他們設計了一套具有挑戰性的、以工具使用為核心的任務,旨在促進智能體對工具使用的深入學習。這些任務提示被刻意構造為必須調用特定工具才能解決 —— 從而使得簡單的策略要麼根本無法完成任務,要麼效率極低。通過將工具依賴性融入任務設計中,智能體不僅學會了何時調用工具,也學會了在複雜的現實環境中如何高效協同使用多種工具。(圖 3 展示了在這些訓練數據中,模型對工具的調用頻率。)

月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA - 天天要聞

其次,他們策劃並整合了一批以推理為核心的任務,旨在強化智能體的核心認知能力,以及其將推理與工具使用結合的能力。該部分進一步細分為以下兩類:

  • 數學與代碼推理:任務聚焦於邏輯推理、算法問題求解和序列計算。kimi–researcher 不僅依賴思維鏈進行解題,還能結合工具集解決這類複雜問題。

  • 高難度搜索:這類任務要求智能體在上下文限制下進行多輪搜索、信息整合與推理,最終得出有效答案。案例研究表明,這些高難搜索任務促使模型產生更深層的規劃能力,以及更健壯、工具增強的推理策略。

為了大規模構建這一多樣化提示集,研究團隊開發了一條全自動數據生成與驗證流程,可在極少人工干預下生成大量問答對,同時保證數據的多樣性與準確性。對於合成任務而言,確保「準確的標準答案(ground truth, gt)」至關重要,因此他們引入了一種強大的 gt 提取方法,以儘可能確保每個問題都配有可靠的答案。

此外,他們還設計了嚴格的過濾流程,以剔除歧義、不嚴謹或無效的問答對;其中引入的 pass@n 檢查機制,可確保僅保留具有挑戰性的問題。圖 4 展示了基於兩項實驗結果的合成任務效果評估。

強化學習訓練

該模型主要採用 reinforce 算法進行訓練。以下因素有助於提升訓練過程的穩定性:

  • 基於當前策略的數據生成(on-policy training):生成嚴格的 on-policy 數據至關重要。在訓練過程中,研究團隊禁用了 llm 引擎中的工具調用格式強制機制,確保每條軌跡完全基於模型自身的概率分佈生成。

  • 負樣本控制(negative sample control):負樣本會導致 token 概率下降,從而在訓練中增加熵崩塌(entropy collapse)的風險。為應對這一問題,他們策略性地丟棄部分負樣本,使模型能夠在更長的訓練周期中持續提升表現。

kimi–researcher 使用基於最終結果的獎勵機制進行訓練,以在動態訓練環境中保持一致的偏好方向。

  • 格式獎勵(format reward):如果軌跡中包含非法的工具調用,或上下文 / 迭代次數超出限制,模型將受到懲罰。

  • 正確性獎勵(correctness reward):對於格式合法的軌跡,獎勵依據模型輸出與標準答案(ground truth)之間的匹配程度進行評估。

為了提升訓練效率,研究團隊在正確軌跡上引入了 gamma 衰減因子(gamma-decay factor)。該機制鼓勵模型尋找更短、更高效的探索路徑。例如,兩條最終結果相同的正確軌跡,較短的那一條將因其前期行為更高效而獲得更高獎勵。

上下文管理

在長程研究任務中,智能體的觀察上下文可能會迅速膨脹。如果沒有有效的記憶管理機制,普通模型在不到 10 次迭代內就可能超過上下文限制。為了解決這一問題,研究團隊設計了一套上下文管理機制,使模型能夠保留關鍵信息,同時捨棄無用文檔,從而將單條軌跡的迭代次數擴展至 50 次以上。

早期的消融實驗表明,引入上下文管理機制的模型迭代次數平均提升了 30%,這使其能夠獲取更多信息,進而實現更優的任務表現。

大規模智能體rl infra

為應對大規模智能體強化學習在效率與穩定性方面的挑戰,研究者構建了一套具備以下關鍵特性的基礎設施體系:

月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA - 天天要聞

  • 完全異步的 rollout 系統:實現了一個具備擴展性、類 gym 接口的全異步 rollout 系統。基於服務端架構,該系統能夠高效並行協調智能體的軌跡生成、環境交互與獎勵計算。相較於同步系統,這一設計通過消除資源空轉時間顯著提升了運行效率。

  • 回合級局部回放(turn-level partial rollout):在 agent rl 訓練中,大多數任務可在早期階段完成,但仍有一小部分任務需要大量迭代。為解決這一長尾問題,研究者設計了回合級局部回放機制。具體來說,超出時間預算的任務將被保存至 replay buffer,在後續迭代中以更新後的模型權重繼續執行剩餘部分。配合優化算法,該機制可實現顯著的 rollout 加速(至少提升 1.5 倍)。

  • 強大的沙盒環境:研究者構建了統一的沙盒架構,在保持任務隔離性的同時,消除了容器間通信開銷。基於 kubernetes 的混合雲架構實現了零停機調度與動態資源分配。agent 與工具之間通過 mcp(model context protocol)進行通信,支持有狀態會話與斷線重連功能。該架構支持多副本部署,確保在生產環境中具備容錯能力與高可用性。

智能體能力的湧現

在端到端強化學習過程中,研究者觀察到 kimi–researcher 出現了一些值得關注的能力湧現。

  • 面對多來源信息衝突時,kimi–researcher 能通過迭代假設修正與自我糾錯機制來消除矛盾,逐步推導出一致且合理的結論。

  • 展現出謹慎與嚴謹的行為模式:即便面對看似簡單的問題,kimi–researcher也會主動進行額外搜索,並交叉驗證信息後再作答,體現出高度可靠性與信息安全意識。

遊戲分類資訊推薦

原生級雙8K回報率!雷柏VT3S鼠標圖賞 - 天天要聞

原生級雙8K回報率!雷柏VT3S鼠標圖賞

快科技6月22日消息,日前雷柏VT3s二代系列無線電競鼠標發佈,全球首發NORDIC 54跨代芯片,原生級雙8K回報率,199元起性價比極高。雷柏VT3s二代包括兩個型號,分別為VT3s和VT3s Max。現在VT3s已經來到我們評測室,下面為大家帶來圖賞。VT3s提供三種顏色可選,星空黑、皎月白為類膚磨砂工藝,另有熾光黃採用親膚防滑塗層。該...
天龍什麼全服大佬都喜歡打笑我狂?揭秘笑我狂天龍18年戰鬥史! - 天天要聞

天龍什麼全服大佬都喜歡打笑我狂?揭秘笑我狂天龍18年戰鬥史!

為什麼全服大佬都喜歡打至尊笑我狂?前不久,狂系服務器【昆崙山】天外遭遇【什剎海】,山海大戰持續了7天,最終【昆崙山】惜敗,當時【上海灘】就放話走着瞧。不得不說,策劃是懂玩家愛看的,這不【上海灘】這周天外匹配了【什剎海】,本以為【什剎海】還會像「山海大戰」時一樣,硬扛笑我狂的【上海灘】,萬萬沒想到只打...
DNF:7月版本內容搶先看!夏日套會有大動作,3個職業有望大加強 - 天天要聞

DNF:7月版本內容搶先看!夏日套會有大動作,3個職業有望大加強

不知不覺,距離7月到來越來越近了!7月版本會有什麼內容上線呢?根據以往慣例,更新計劃來看,會有夏日套、職業平衡,以及便利性優化這3個,大家一起來看看吧。7月版本內容搶先看首先,夏日套已經爆料了,是「海上救援套」!外觀看着非常清爽,是大家喜歡的泳裝+裸足。不過看着感覺還是差點意思,雖說這次的布料不算多,也...
王欣瑜vs萬卓索娃即時戰況:王欣瑜扳平大比分! - 天天要聞

王欣瑜vs萬卓索娃即時戰況:王欣瑜扳平大比分!

王欣瑜扳平大比分!即時戰況:柏林站決賽,王欣瑜在開局被破發的情況下迅速回破,盤末破掉萬卓索娃非保不可的發球局,最終以6-4扳回一城!決勝盤誰會笑到最後?(來源:@WTA國際女子網球協會)更多精彩資訊請在應用市場下載「極目新聞」客戶端,未經授權請勿轉載,歡迎提供新聞線索,一經採納即付報酬。24小時報料熱線027-...
MSI唯一不怕GenG的隊伍!新北美之光能成為黑馬嗎? - 天天要聞

MSI唯一不怕GenG的隊伍!新北美之光能成為黑馬嗎?

★遊戲馬蹄鐵原創新北美之光北美今年第二賽段的決賽是C9對戰FLY,也算是新老北美之光的對決了,最終打滿Bo5由FLY勝出。這支隊伍和去年相比,在陣容方面沒有任何變化,S14上對戰GenG的卓越表現,讓FLY在北美本土收穫了不錯的人氣。在第一賽段比較離譜的Bo3單淘季後賽中,輸給了100T因此未能參加先鋒賽。但是在第二賽段,從常...
6月10日技能人才收入大漲?七項新政解讀,未來養老更有保障! - 天天要聞

6月10日技能人才收入大漲?七項新政解讀,未來養老更有保障!

為改變這一現狀,2025年5月17日,人社部、財政部、國資委聯合印發《關於加大國有企業技能人才薪酬分配激勵的通知》,明確提出七項措施,旨在全面提升技能人才的收入水平,使其至少與管理幹部持平。這一政策的出台,不僅是對技能人才價值的認可,也為他們的職業發展和未來養
很多古幣老玩家進入了「賢者模式」 - 天天要聞

很多古幣老玩家進入了「賢者模式」

那些老同學、老朋友,聯繫得越來越少,大家都為生活而忙。好不容易約出來聚一聚,喝酒擼串結束,想找回點年輕時的感覺。找個電競酒店打遊戲,沒想到大家都電子ED(沒激情了),再也不復過去通宵打副本的興奮,才玩兩個小時就頭暈噁心。去泡吧唱歌,沒一會各
月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA - 天天要聞

月之暗面「調教」出最強Agent,在「人類最後一場考試」拿下最新SOTA

機器之心報道編輯:楊文、澤南昨天,月之暗面發了篇博客,介紹了一款名為 Kimi-Researcher 的自主 Agent。這款 Agent 擅長多輪搜索和推理,平均每項任務執行 23 個推理步驟,訪問超過 200 個網址。它是基於 Kimi k 系列模型的內部版本構建,並完全通過端到端智能體強化學習進行訓練,也是國內少有的基於自研模型打造的 Age...