在人工智能技術飛速發展的當下,大語言模型(LLM)已成為人們處理信息、解決問題的得力助手。然而,當面對需要跨越海量信息、探索未知領域的複雜研究任務時,單一的大語言模型往往會暴露出局限性。為突破這一瓶頸,Anthropic 的工程師們精心構建了一套先進的多智能體研究系統,並將其巧妙整合為 Claude 的 「研究」(Research)功能。近期,Anthropic 詳細分享了該系統從原型到產品的全過程,為我們揭開了構建一個高效、可靠智能體系統的神秘面紗,其中蘊含的核心原則、架構設計和工程智慧,極具探索價值與借鑒意義。
在深入剖析 Anthropic 的多智能體研究系統之前,我們有必要先明晰研究工作的特性以及單一大語言模型在其中面臨的挑戰。研究工作本質上具有開放性和動態性,其過程難以預設固定路徑,需要根據研究過程中的新發現不斷靈活調整方向。這恰恰與 AI 智能體的優勢相契合,智能體能夠依據環境變化自主決策、靈活行動。但單智能體在應對複雜查詢時,尤其是那些需要 「廣度優先」 搜索的任務,因其順序執行的特性,效率往往不盡人意。例如,當需要從互聯網的海量信息中收集特定主題的多方面資料時,單智能體可能需要依次遍歷各個信息源,耗時較長且容易遺漏重要信息。
多智能體系統的出現,為解決上述難題提供了創新思路。該系統的核心理念在於 「壓縮」,即從海量信息中高效提煉有價值的洞見。在這一系統中,多個 「子智能體」(Subagents)如同訓練有素的專業人員,能夠並行工作。它們各自擁有獨立的上下文窗口,可同時探索問題的不同方面。這種分工協作模式帶來了諸多顯著優勢。一方面,減少了路徑依賴,避免了單智能體因遵循單一搜索路徑而可能錯過其他重要信息的情況;另一方面,實現了關注點分離,不同的子智能體能夠根據自身特長,使用不同的工具或提示進行工作。例如,在進行一項關於新型材料研發的研究任務時,有的子智能體專註於學術文獻數據庫,搜索最新的科研成果;有的子智能體則着眼於專利數據庫,查找相關的技術專利;還有的子智能體從行業新聞資訊中收集市場動態和應用案例等信息。
通過這種並行壓縮與分工協作,多智能體系統在性能上實現了質的飛躍。Anthropic 的內部評估數據有力地證明了這一點:在處理需要分解任務的複雜查詢時,如 「找出標普 500 信息技術板塊所有公司的董事會成員」,一個由 Claude Opus 4 擔任主智能體、Claude Sonnet 4 擔任子智能體的多智能體系統,其性能比單個 Claude Opus 4 智能體高出 90.2%。這一數據充分彰顯了多智能體系統在複雜任務處理中的強大優勢。
當然,強大的性能並非毫無代價。多智能體系統在運行過程中是 「token 消耗大戶」。數據顯示,智能體交互的 token 消耗約為普通聊天的 4 倍,而多智能體系統更是高達 15 倍。這意味着運行多智能體系統需要投入更多的計算資源和成本。因此,這類系統最適用於那些能夠通過其卓越性能創造足夠高價值的任務,如大型企業的戰略決策分析、前沿科學研究等領域,在這些場景中,多智能體系統所帶來的高效和精準能夠顯著提升工作成果的質量和價值,從而彌補其資源消耗的成本。
Anthropic 的研究系統採用了經典的 「指揮家 - 演奏家」(Orchestrator - Worker)模式,這種模式為系統的高效運行奠定了堅實基礎。當用戶提交一個複雜查詢後,系統首先會創建一個主智能體,它如同交響樂中的指揮家,承擔著多重關鍵職責。在理解和規劃階段,主智能體憑藉強大的語義理解能力,深入分析用戶意圖,進而制定出全面且細緻的研究策略。隨後,主智能體將大任務巧妙分解為多個獨立的子任務,並依據每個子任務的特性,為其創建專門的 「子智能體」,如同指揮家為樂團成員分配各自的演奏任務。在任務執行過程中,主智能體持續關注子智能體的工作進展,匯總它們返回的信息,並運用綜合分析能力,將分散的信息整合為一份完整、準確的最終報告。
子智能體則如同演奏家,是並行的工作單元。它們接收主智能體下達的指令後,充分發揮自身專業能力,獨立地執行搜索、評估信息等任務。例如,在進行市場調研相關的研究時,子智能體可能會通過網絡搜索、數據分析工具等,收集並分析市場數據、競爭對手信息等,並將關鍵發現及時反饋給主智能體。
為了應對超過模型上下文窗口(如 200K tokens)的超長任務,系統引入了外部記憶機制。這一機制就像一個龐大的知識庫,能夠持久化存儲研究計劃、重要數據等關鍵信息,有效防止上下文丟失,確保智能體在處理複雜、長期任務時,能夠隨時調用之前存儲的信息,保持工作的連貫性和準確性。
在生成最終報告後,一個專門的引用智能體隨即登場。它的職責是對報告中的所有聲明進行仔細檢查,並將其與原始信源進行精準匹配,確保報告中的每一條信息都有可靠的依據,如同嚴謹的學術研究者為論文中的每一個觀點標註準確的參考文獻,從而保證了研究結果的可信度和權威性。
整個流程並非一成不變的線性過程,而是一個動態的、迭代的循環。主智能體如同經驗豐富的指揮官,能夠根據子智能體反饋的初步結果,靈活調整研究策略。如果發現某些方面的信息不夠充分,主智能體可以迅速創建更多的子智能體進行深入或補充研究,直到收集到足夠的信息,完成高質量的研究任務。
讓一群智能體高效協作遠比控制單個智能體複雜得多,Anthropic 在提示工程和系統評估方面積累了豐富且實用的經驗,並總結出了八大原則和三大原則。
在提示工程方面,首先要像智能體一樣思考。工程師需要深入模擬系統運行過程,細緻觀察智能體的行為,深入理解其 「心智模型」。通過這種方式,能夠敏銳地發現智能體在執行任務過程中可能出現的失敗模式,如過度搜索導致資源浪費、選擇錯誤工具影響任務進度等,並針對性地進行優化。例如,當發現智能體在某個特定類型的任務中頻繁選擇不恰當的搜索工具時,工程師可以通過調整提示內容,引導智能體選擇更合適的工具,從而提高任務執行效率。
教會 「指揮家」 如何授權至關重要。給子智能體的指令必須清晰、具體,明確包含任務目標、輸出格式、工具使用建議以及任務邊界等關鍵信息。模糊不清的指令極易導致子智能體工作混亂,出現重複工作或任務失敗的情況。例如,在一個數據分析任務中,如果主智能體只是簡單地要求子智能體 「分析市場數據」,子智能體可能會因不清楚具體的分析方向、數據格式要求等,而無法準確完成任務。但如果指令明確為 「對過去一年的市場銷售數據進行月度趨勢分析,以柱狀圖和折線圖的形式呈現結果,並標註出銷售額波動較大的月份及原因」,子智能體就能更高效地開展工作。
根據任務複雜度調整投入也是關鍵原則之一。在提示中巧妙嵌入規則,指導主智能體依據任務的複雜程度,如簡單事實查詢、對比分析、複雜研究等,合理決定啟動的子智能體數量和工具調用次數。這樣可以避免在簡單任務上投入過多資源,造成浪費;同時確保在複雜任務中提供足夠的資源支持,保證任務順利完成。比如,對於一個簡單的事實查詢任務,如 「查詢某城市的人口數量」,主智能體只需啟動少量子智能體,調用基本的信息檢索工具即可;而對於一個複雜的市場競爭態勢分析任務,主智能體則需要啟動多個不同類型的子智能體,調用市場調研數據庫、數據分析軟件等多種工具。
精心設計工具對於智能體的高效工作不可或缺。工具的接口和描述必須清晰、準確,為智能體提供明確的啟發式規則,如優先使用專用工具、先進行廣泛搜索再深入挖掘等,確保它們在面對眾多工具時能夠做出正確選擇。例如,在進行學術研究時,為智能體提供專門的學術文獻檢索工具,並明確告知其在檢索時應先通過關鍵詞進行寬泛搜索,篩選出相關文獻後,再根據文獻摘要和引用情況進行深入篩選,這樣能大大提高智能體獲取有效信息的效率。
讓智能體自我改進是 Anthropic 在實踐中探索出的一項創新性原則。Claude 4 模型本身具備強大的學習能力,Anthropic 充分利用這一優勢,創建了一個 「工具測試智能體」。當該智能體發現某個工具描述存在問題,導致智能體在使用工具時出現錯誤或效率低下時,它能夠自動進行自我診斷,並重新編寫工具描述,以避免未來在類似情況下出錯。這一舉措顯著提升了智能體的工作效率,使任務完成時間減少了 40%。例如,在一個圖像識別任務中,如果智能體發現圖像識別工具的描述中對於某些特殊圖像格式的識別方法說明不夠清晰,導致識別準確率較低,工具測試智能體就會根據實際情況重新編寫該工具的描述,補充相關識別方法,從而提高後續圖像識別任務的準確性和效率。
先拓寬,再深入的原則引導智能體模仿人類專家的研究方式。在面對複雜問題時,智能體首先使用寬泛的查詢探索問題的全貌,全面評估可用信息,了解問題的大致範圍和相關領域。然後,根據初步探索的結果,逐步縮小焦點,深入研究關鍵問題。例如,在進行一項關於新能源汽車發展趨勢的研究時,智能體先通過廣泛搜索,了解全球新能源汽車市場的整體規模、主要生產企業、技術發展現狀等宏觀信息,然後再針對電池技術創新、政策法規影響等關鍵方面進行深入分析。
引導思考過程原則充分利用模型的 「思考」 能力。主智能體在制定研究策略、評估子智能體工作成果以及分配任務時,通過 「思考」 來梳理思路、做出合理決策。子智能體在每次工具調用後也進行 「思考」,評估結果質量,判斷是否達到預期目標,並據此規划下一步行動。這種 「思考」 過程就像人類在解決問題時的自我反思和規劃,有助於智能體更高效地完成任務。例如,在一個項目策劃任務中,主智能體在制定項目計劃時,會 「思考」 各個任務之間的邏輯關係、資源分配合理性等問題;子智能體在完成市場調研任務後,會 「思考」 調研數據的準確性、完整性,以及是否能夠滿足項目策劃的需求,從而決定是否需要進一步補充調研。
並行化提升速度與性能原則在 Anthropic 的多智能體系統中得到了充分體現。系統實現了兩個層面的並行化:主智能體能夠並行啟動多個子智能體,讓它們同時開展不同方面的工作;每個子智能體又可以並行調用多個工具,加快信息獲取和處理速度。這種高度並行化的設計使得複雜研究的耗時從數小時大幅縮短到幾分鐘。例如,在進行一個大型數據分析項目時,主智能體可以同時啟動多個子智能體,分別負責不同數據維度的分析;每個子智能體在分析過程中,又可以並行調用數據清洗工具、統計分析工具、數據可視化工具等,極大地提高了數據分析的效率。
在有效評估方面,Anthropic 同樣總結出了實用的原則。在開發早期,一個小的、有代表性的測試集(約 20 個查詢)就足以幫助開發者發現重大問題並驗證改進效果。開發者無需等到構建完美的大型評估集才開始測試,這樣可以大大加快開發迭代速度,及時發現並解決問題。例如,在開發一個新的智能體功能時,通過對這 20 個具有代表性的查詢進行測試,可能就會發現智能體在某些特定類型問題上的回答準確率較低,開發者可以據此快速調整算法或提示內容,然後再次進行測試,不斷優化功能。
利用 LLM 作為 「裁判」 為評估自由格式文本輸出提供了高效解決方案。對於那些難以通過程序化方式進行評估的文本內容,如智能體生成的報告、分析文章等,LLM 可以根據一套預先設定的標準,如事實準確性、引用準確性、完整性、信源質量等,對輸出進行打分。例如,在評估智能體生成的一份關於科技行業發展趨勢的報告時,LLM 可以快速分析報告中的內容,判斷其中的事實陳述是否準確,引用的資料是否可靠,報告內容是否完整涵蓋了關鍵信息,以及信源的權威性如何等,並給出相應的分數,為開發者評估智能體的工作質量提供參考。
儘管自動化評估能夠快速處理大量數據,但人工評估在評估過程中仍然不可或缺。人工測試員憑藉其敏銳的洞察力和豐富的經驗,能夠發現自動化評估無法捕捉到的微妙問題,如早期版本的智能體在信息篩選過程中可能偏愛 SEO 優化的內容農場,而忽視學術 PDF 等高質量信息源,以及一些系統性故障。人工評估可以及時發現這些問題,並為進一步優化提供詳細的反饋,確保智能體系統的性能和可靠性。例如,人工測試員在審查智能體生成的醫學研究報告時,可能會發現智能體對於某些醫學術語的理解存在偏差,或者在引用醫學文獻時出現錯誤,這些問題通過自動化評估可能難以發現,但人工評估能夠及時指出,從而推動智能體系統不斷完善。
將一個複雜的智能體系統投入生產環境,會面臨一系列傳統軟件開發中不常見的挑戰。智能體在運行過程中是長時運行且有狀態的,這意味着任何一個小錯誤都可能在後續運行中被不斷放大,最終導致整個任務失敗。為應對這一問題,系統必須具備從故障點恢復(Resume)的能力,而不是在出現問題時從頭開始。例如,在一個持續運行數天的大數據分析任務中,如果智能體在運行到第二天時因某個臨時網絡故障導致部分數據丟失,具備從故障點恢復能力的系統可以根據之前存儲的任務狀態和部分結果,重新獲取丟失的數據,繼續完成後續分析任務,而無需重新啟動整個分析流程,大大提高了系統的穩定性和可靠性。
智能體的非確定性使得復現和調試問題異常困難。由於智能體在不同運行環境、不同輸入條件下可能會產生不同的行為,當出現問題時,很難準確重現問題發生的場景,從而難以定位和解決問題。為解決這一難題,Anthropic 引入了高級別的生產追蹤(Tracing)機制。該機制主要監控智能體的決策模式和交互結構,而非具體對話內容,從而在保護用戶隱私的前提下,幫助開發者深入了解智能體的運行過程,定位問題根源。例如,當智能體在執行一項任務時出現錯誤決策,通過生產追蹤機制,開發者可以查看智能體在做出該決策時的推理過程、與其他智能體或工具的交互情況,從而分析出導致錯誤決策的原因,如提示信息不準確、工具調用錯誤等,並進行針對性改進。
在部署協調方面,由於智能體是持續運行的,不能簡單地採用停止舊版本、啟動新版本的常規部署方式。Anthropic 採用了 「彩虹部署」(Rainbow Deployments)策略,即新舊版本的系統同時運行,流量逐步從舊版本遷移到新版本。在這個過程中,開發者可以密切觀察新版本系統在實際運行中的性能表現,及時發現並解決可能出現的兼容性問題、性能瓶頸等,確保系統的平穩過渡,避免因新版本上線而對用戶造成不良影響。例如,在更新智能體的某個核心算法版本時,通過彩虹部署,先將少量用戶流量引入新版本系統,觀察新版本在處理這些用戶請求時的響應速度、準確率等指標,確認無誤後,再逐步增加新版本系統的流量佔比,直到完成全部遷移。
目前,Anthropic 的多智能體系統採用的同步執行模式雖然簡化了協調過程,但也帶來了性能瓶頸。在這種模式下,主智能體需要等待一批子智能體完成任務後才能繼續下一步操作,這在一定程度上限制了系統的整體運行效率。為突破這一瓶頸,未來的發展方向是採用異步執行模式。雖然異步執行模式會增加系統設計和開發的複雜性,但一旦實現,將極大地提升系統性能。例如,在異步執行模式下,主智能體在啟動子智能體後,無需等待子智能體完成任務,就可以繼續處理其他事務,當子智能體完成任務後,會主動向主智能體報告結果,這種方式可以充分利用系統資源,提高系統的並發處理能力,進一步縮短複雜任務的處理時間。
構建一個生產級別的多智能體研究系統無疑是一項艱巨的工程挑戰,從最初的原型設計到最終成為可靠的產品,每一步都充滿了困難與挑戰。
這不僅需要細緻入微的工程設計,精心規劃系統的架構、模塊功能以及智能體之間的協作方式;還需要進行全面的測試,通過各種測試手段和測試數據,發現並解決系統中可能存在的問題;同時,精巧的提示與工具設計能夠充分發揮智能體的潛力,提高系統的性能和效率;此外,跨團隊的緊密合作也是不可或缺的,包括算法研發團隊、工程實現團隊、測試團隊以及產品團隊等,各團隊之間需要密切溝通、協同工作,才能確保整個項目的順利推進。
Anthropic 在這一領域的探索和實踐,為人工智能領域的發展提供了寶貴的經驗和借鑒,也為未來智能體系統的發展指明了方向。隨着技術的不斷進步和完善,多智能體系統有望在更多領域發揮重要作用,為人們解決複雜問題、推動科學研究和創新發展提供更強大的支持。