谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型

2025年07月07日11:23:08 科技 1328

編輯:定慧 好睏

新智元導讀】三個前沿AI能融合成AGI嗎?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro與DeepSeek-R1-0528模型,在推理過程中動態協作,通過試錯優化生成過程,有效融合群體AI智慧。


三個臭皮匠頂個諸葛亮、雙拳難敵四手。。。

這些對於人類再自然不過的群體智慧思維,似乎從來沒有發生在AI身上。

我們總是期望某個AI能夠足夠智能,科技巨頭們之間的比拼也是通過單模型的不斷更新來標榜先進性。

比如o4-mini、Gemini-2.5-Pro、DeepSeek-R1-0528這些具有代表性的模型,到底哪個寫的代碼更好?

但如果,將多個AI模型的能力「融會貫通」,能否也達到三個臭AI頂個AGI的效果?

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

最近,一項來自於Sakana AI的研究,在推理過程中——而不是在構建——試圖將三種模型的能力整合起來。

結果令人驚訝,整合後的模型能力都遠超單個模型,三模合一的性能也好於只有兩個模型合體的性能。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

Sakana AI使用一種新的推理時Scaling算法,自適應分支蒙特卡洛樹搜索AB-MCTS(Adaptive Branching Monte Carlo Tree Search)。

該算法使AI能夠高效地執行試錯操作,並讓多個前沿AI模型協同合作。

使用AB-MCTS將o4-mini、Gemini-2.5-Pro和R1-0528這三種當前最先進的AI模型組合起來,在ARC-AGI-2基準測試中取得了令人驚訝的成績。

多模型的得分遠超單獨的o4-mini、Gemini-2.5-Pro和DeepSeek-R1-0528模型。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

論文地址:https://arxiv.org/abs/2503.04412

這種想法,曾經在在2024年關於進化模型融合的研究中得到過初期驗證,通過進化計算和模型融合,利用現有開源模型挖掘到了多模型所蘊含的巨大群體智慧。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

但AB-MCTS更進一步,不僅在構建新模型時,而且在推理過程中也使用多個模型。

利用不斷進步的前沿模型(例如ChatGPT、Gemini和DeepSeek),生成一種新的群體智能的形式。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

推理時Scaling

當你面對一個無法一眼看透的難題時,會怎麼做?

很可能,你會花更長時間獨立思考,親身實踐、反覆試錯,或是與他人協作。

那麼,我們是不是也能讓AI用同樣的方式去解決難題呢?

  • 第一種方法和人類使用的「更長時間思考」策略如出一轍——通過RL生成更長的思維鏈,來顯著提升推理模型的能力。比如OpenAI的o1/o3和DeepSeek的R1。
  • 第二種方法,是讓模型反覆審視問題、不斷優化答案,甚至在必要時推倒重來。
  • 第三種則是讓LLM之間進行頭腦風暴,類似於一種「群體智慧」。

這次團隊提出的AB-MCTS,正是通過推理時Scaling技術,讓AI不僅能高效地執行試錯,還能讓多個不同的AI進行集體思考。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

駕馭搜索的兩個維度:深度與廣度

目前,有兩種常見的方法可以讓LLM進行試錯:

  • 第一種,是名為「序列優化」的深度優先搜索。它利用LLM生成答案,然後對其進行反覆優化。
  • 第二種,是「重複採樣」,即讓LLM根據同一個提示詞多次生成解決方案。這種廣度優先搜索,會重複地查詢LLM,但不會參考先前嘗試的結果。而LLM的隨機性,則會對同一問題會產生不同的答案。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

實踐證明,無論是深入搜索(優化現有解決方案)還是擴展搜索(生成新解決方案),都能有效幫助LLM找到更優的答案。

為了將這兩者有效地結合起來,團隊提出了一種用於推理時Scaling的、更高效的全新方法——AB-MCTS。

它能根據具體問題和上下文,在深度和廣度兩個方向上進行靈活搜索。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

為了實現這種靈活搜索,AB-MCTS擴展了在AlphaGo等系統中得到成功應用的蒙特卡洛樹搜索 (MCTS),並採用湯普森採樣來決定探索方向。

具體而言,在每個節點(代表初始提示詞或一個已生成的解決方案),AB-MCTS會利用概率模型來評估兩種可能行動的潛在價值:

  • 生成一個全新的解決方案
  • 或者優化一個現有的方案

隨後,從這些模型中進行採樣,根據估算出的價值來決定下一步的探索方向。

為了評估尚未生成的新方案的質量,AB-MCTS會通過混合模型和概率分佈來對評估過程進行建模,從而實現真正靈活的搜索。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

第三個維度:AI

為了最大化LLM作為集體智能的潛力,一個名為Multi-LLM AB-MCTS的系統應運而生。

它不僅能自適應地探索搜索方向,還能根據給定的問題和情境,選擇使用哪個LLM。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

具體來說,Multi-LLM AB-MCTS的運作方式如下:

  • 步驟1:算法將決定是(1)選擇一個現有節點(深入搜索),並在下一層級重複步驟1;還是(2)從當前節點生成一個新的解決方案(擴展搜索),並進入步驟2。
  • 步驟2:選擇一個LLM。
  • 步驟3:被選中的LLM會基於父節點生成一個更優的解決方案,並對結果進行評估。這個新生成的解決方案將作為一個新節點添加到搜索樹中。

至於如何選擇模型,團隊的方法是——

  • 首先,為每種模型分配了一個獨立的概率模型,並採用類似AB-MCTS的方式使用湯普森採樣;
  • 然後,這些概率模型就會根據每個LLM在搜索過程中的表現進行更新;
  • 最終,讓表現更優的LLM被選中的可能性越來越高。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

實驗結果

ARC-AGI旨在評估一種類人、靈活的智能,這種智能可以高效地進行推理並解決新問題,而不像傳統指標那樣測試特定技能或知識。

實驗採用的是更具挑戰性的ARC-AGI-2

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

來自ARC-AGI-2的一個示例問題:任務是從左側的三個演示案例中推斷出共同的轉換規則,並將其應用到右側的測試案例中

為了主要評估搜索算法的最大潛在性能,使用了Pass@k指標,該指標用于衡量在k次嘗試內是否至少找到了一個正確的解決方案。

這與ARC-AGI-2比賽的官方標準不同,後者通常採用Pass@2標準(提交兩個最終答案,其中一個是正確的)。

Pass@2方法需要從搜索結果中選擇有希望的候選方案的額外步驟。

實驗是在ARC-AGI-2的公共評估集中的120個任務上進行的。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

結合Gemini-2.5-Pro與DeepSeek-R1-0528的Multi-LLMAB-MCTS在Pass@250上表現出更高的得分。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

重複採樣一直被認為是ARC-AGI中一種非常有效的方法。

事實上,在實驗中,使用o4-mini進行重複採樣成功解決了23%的問題(即生成了能夠正確轉換測試用例Python代碼)。

這一結果遠超單次嘗試的得分,展示了重複採樣的強大能力。

AB-MCTS進一步將得分提高至27.5%。這兩種方法之間的差異在約50次LLM調用後變得更加明顯。

通過將前沿模型作為具有多LLMAB-MCTS的集體智能加以利用,最終能夠為超過30%的問題找到正確的解決方案。

在Multi-LLMAB-MCTS中發現的一個關鍵特徵是它能夠根據各個LLM在特定問題上的專長動態地分配它們。

下圖清楚地展示了這一行為:對於在演示示例中成功率較高的情況(圖的左側),觀察到對某個特定LLM的明顯偏好。

這種偏向發生的原因是在搜索過程中,算法識別出哪個LLM對於給定的問題最有效,並隨後增加該模型的使用頻率。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

還有一些有趣的例子,其中單個LLM無法解決的問題在組合使用多個LLM後得以解決。

這超出了為每個問題分配最佳LLM的簡單做法。

在下面的例子中,儘管o4-mini最初生成的解答是錯誤的,但DeepSeek-R1-0528和Gemini-2.5-Pro能夠在下一步將其作為提示來得出正確的解答。

這表明Multi-LLMAB-MCTS可以靈活地結合前沿模型,解決原本無法解決的問題,從而推動將LLMs用作集體智能所能實現的邊界。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

使用Multi-LLMAB-MCTS解決ARC-AGI-2時的搜索樹示例。

節點中的數字表示生成順序,顏色代表所選的LLM。

黃色節點表示生成了正確轉換測試用例的代碼的節點。

這是一個單一LLM均無法找到解決方案,但通過多個LLM的組合成功解決問題的示例。

谷歌/DeepSeek首次合體AI夢之隊!戰力飆升30%,碾壓一切單模型 - 天天要聞

多LLMAB-MCTS使得不同LLM之間能夠協作。

上圖展示了一個例子,其中DeepSeek-R1-0528在o4-mini(來自上圖問題中生成的錯誤解答)的基礎上改進,最終得出了正確答案。

Multi-LLMAB-MCTS旨在通過推理時Scaling多個前沿模型的合作來提升性能。在結合多個LLM方面,也提出了諸如多智能體辯論(Multiagent Debate)、智能體混合(Mixture-of-Agents)和LE-MCTS等其他方法。

自2024年中以來,「推理」模型逐漸受到重視,這些模型通過強化學習優化推理過程,開啟了繼模型擴展之後的新範式——推理時Scaling時代。

通過反覆執行這些模型的推理過程,並結合多個具有獨特個性的LLMs,可以進一步提升推理性能。

儘管人類大腦本身已堪稱自然奇蹟,但真正撼動時代的偉業,從不屬於孤膽英雄。

無論是將人類送上月球的阿波羅計劃,構建全球信息命脈的互聯網,還是破譯生命密碼的人類基因組計劃,這些里程碑式的成就,皆源於無數頭腦之間的協作與共鳴。

正是多樣知識的交匯、思想的碰撞,才讓我們一次次突破人類智慧的邊界——這種智慧同樣適用於AI。

科技分類資訊推薦

印度工程師身兼4職年入20萬,病假竟在GitHub為別家幹活? - 天天要聞

印度工程師身兼4職年入20萬,病假竟在GitHub為別家幹活?

如果你是一位初創公司創始人,歷經千挑萬選終於招來一位面試表現堪稱「神級」的工程師,但入職沒幾天:這名工程師卻頻頻請假、交付拖延,理由五花八門:生病、斷電、水災,甚至還說「無人機炸了他的大樓」;更魔幻的是,你發現他請病假的那周,GitHub
熱到系統崩潰?一地天氣預報驚現54℃高溫,短暫異常後恢復顯示38℃ - 天天要聞

熱到系統崩潰?一地天氣預報驚現54℃高溫,短暫異常後恢復顯示38℃

7月6日,長沙一網友發視頻稱,我寧願相信是網頁壞了,也不相信明天是54℃。視頻顯示,7月7日長沙市最高氣溫將達到54℃,可能會打破7月7日的歷史記錄。該網友向記者反饋應該是網頁出了bug,現在已經恢復正常。記者向網頁數據供應商客服致電,截至發稿前未接通。該視頻發出後不少網友打趣,這可能才是真實的溫度。據湖南省氣...
從「上下樓」到「上下游」,江蘇常州打造樓宇產業鏈新生態 - 天天要聞

從「上下樓」到「上下游」,江蘇常州打造樓宇產業鏈新生態

來源:【常州日報-常州網】6月23日早上9時,億澤智研谷2號樓,江蘇立教信息科技有限公司(簡稱立教科技)的工程師剛在電腦上敲定AI編程積木的電路設計,樓下常州市澤宸電子科技有限公司(簡稱澤宸電子)的技術員就端着咖啡走進辦公室:「新改的電路板
株洲科技職業學院與科大訊飛正式簽約共建訊飛人工智能產業學院 - 天天要聞

株洲科技職業學院與科大訊飛正式簽約共建訊飛人工智能產業學院

7月6日,株洲科技職業學院與科大訊飛正式簽署合作協議,攜手共建「訊飛人工智能產業學院」,雙方在深化產教融合、培育人工智能領域高素質技術技能人才方面邁出堅實一步。簽約儀式上,株洲科技職業學院王貴義董事長對到場的領導、家長和學生致以誠摯歡迎與感謝。他強調,在人工智能技術深刻重塑產業格局、驅動社會變革的當下...
蘋果8月1日凌晨發佈第三財季財報 預計營收環比下滑 - 天天要聞

蘋果8月1日凌晨發佈第三財季財報 預計營收環比下滑

【TechWeb】7月7日消息,據外媒報道,隨着二季度落下帷幕,各大公司新一季度的財報也就提上了日程,蘋果公司就已在官網宣布,他們將在當地時間7月31日美國股市收盤後,也就是北京時間8月1日凌晨,發佈截至6月底的2025財年第三財季的財報。在財報發佈之後,蘋果隨後就將舉行財報分析師電話會議。蘋果公司第三財季的財報分析...
更大更適合家用,鈦7或成方程豹下一個銷量增長極 - 天天要聞

更大更適合家用,鈦7或成方程豹下一個銷量增長極

日前,方程豹旗下全新車型——鈦7登陸工信部新車申報目錄,迅速引起了業內外的高度關注和廣泛熱議。據最新銷量數據顯示,6月方程豹汽車依舊熱銷,銷量超1.8萬台,環比大增50.1%,鈦3更是熱銷了超1.2萬台,成為A級純電SUV爆款選手。數據一出,不少網友評論:「方