作者:悟空團隊 — 新一代 ai 代碼安全捉「妖」行者(原騰訊ai安全-啄木鳥團隊)
丨 導語 隨著ai技術的迅猛發展,ai智能體在0day漏洞挖掘領域展現出前所未有的潛力。
本文將深入探討ai agent如何通過創新的多智能體協作系統,打造出高效的0day漏洞「生產線」,實現自動化的漏洞檢測。通過基準測試和實戰驗證,agent在複雜代碼和大型項目中的表現超越傳統工具,極大提升了漏洞識別效率與準確性。
一、ai agent 顛覆0day挖掘認知
在網路安全攻防的核心戰場,0day漏洞挖掘長期以來被視為一項極度依賴專家經驗、耗時費力的「手藝活」。
傳統的0day挖掘如同大海撈針,依賴人工審計和靜態應用安全測試(sast)工具,雖有其作用,但在應對日益龐雜的代碼和系統時,往往面臨誤報、漏報和效率低下等問題,在處理大型項目、複雜代碼系統時,它們的局限性也逐漸顯現。

(插畫圖:ai agent 與傳統漏洞挖掘方式對比)
ai agent 的出現,正為這一困境帶來革命性的突破。通過模擬人類專家的分析與推理能力,結合機器學習的強大模式識別能力,ai agent 不僅能大幅度自動化審計流程、減輕人工負擔,更能精準識別出傳統方法難以發現的複雜漏洞,顯著提升漏洞挖掘的效率、準確性和深度。
二、「0day生產線」是如何建成的?
ai agent 通過構建一個多智能體協作系統,效仿專業安全團隊的協作機制,從而打造出一條自動化的0day漏洞「生產線」。
1. 系統架構:協同作戰的智能軍團
(1) client agent :用戶交互的入口,負責提交任務並與其他智能體進行協調。
(2) remote agent :負責任務規劃與路由,負責將複雜任務分解,並依據各專業智能體的能力進行最優分配,確保整體任務高效執行。
(3) audit agent :審計智能體,漏洞挖掘的核心執行單元。它負責對代碼進行從代碼片段級到完整項目級的多層次、多維度掃描與風險評估。集成了多種先進掃描技術和演算法,以增強審計的廣度和深度。
(4) review agent :複審智能體,負責進一步審核漏洞檢測結果,結合多種prompt和評分機制,確認漏洞的有效性和嚴重性,大幅降低誤報。
(5) fix agent :修復智能體,此智能體負責提供初步的修復建議。它通過查詢cve漏洞庫、內部知識庫等,生成漏洞修復方案。

(圖:悟空 ai agent 架構圖)
悟空 agent 的核心優勢在於,它通過精細分工克服了單一智能體在知識廣度、分析深度和任務並行處理能力上的局限,使得複雜漏洞的挖掘如同專家團隊高效會診,而非單兵作戰。通過a2a(agent-to-agent)協議高效協同,確保任務從宏觀規划到微觀執行的無縫銜接。
2. 工作流程:自動化的流水線作業
悟空 agent 的工作流程高度自動化,宛如一條精密的流水線:

(圖:悟空 agent 工作流程圖)
(1) 任務接收與分解: 用戶通過client agent 提交任務。該任務首先到達「產線總指揮」—— remote agent 。它利用大語言模型(llm)進行任務規劃,將複雜需求智能分解為獨立的子任務(如代碼審計、結果驗證、修復方案生成)。
(2) 並行專業處理: 分解後的子任務被自動派發至「流水線」上的各個專業「工站」——即並行的audit agent 、review agent 和 fix agent 。
● audit agent 運用llm和代碼分析模塊(如入口識別、上下文獲取、漏洞推理)執行深度掃描。
● review agent 利用llm及多重校驗、投票機制(如多checker、疑難點反思)確保結果準確性。
● fix agent 參考知識庫(cve庫、內部庫),藉助llm微調生成修復建議並進行語法檢查。
(3) 結果匯總輸出: 各智能體完成工作後,將處理響應反饋給remote agent 。由它負責整合所有子任務的結果,形成一份完整的、經過層層處理的最終報告或解決方案,並準備交付。

(圖:悟空 agent 的實際工作流程界面)
這個流程通過明確的分工和智能體的並行協作,實現了從任務輸入到結果輸出的高度自動化,顯著提升了漏洞挖掘與處理的效率。
三、ai agent 的產出與實戰驗證
1. 基準數據測試:
● github top 1000開源項目實戰驗證
為全面評估悟空 agent 在真實且複雜的代碼環境中的實戰能力,我們選取了 github 平台某語言排名前1000的開源項目作為基準測試集,直接對這些廣泛使用的代碼倉庫進行真實漏洞掃描與檢測。
在測試中,悟空 agent 展現出高效且精準的漏洞識別能力。特別是在針對sql注入等常見高危漏洞的檢測上,準確率超95%。
在對github top 1000項目的整體掃描中,悟空 agent 共計發現並確認了 247 處有效漏洞。這些漏洞在不同影響力層級的項目中均有分布,具體構成請見下圖分析:

(圖:悟空 agent 在 github 某語言下top1000項目的實戰檢測成果)
從圖中可以看出,雖然頂級項目安全防護相對嚴密,但中長尾項目中仍存在大量可被利用的風險點。我們也對大部分檢出漏洞進行了 cve 編號申報,申報結果大致分布為:
(圖:悟空 agent檢出漏洞的 cve 申報情況)
2. 實戰驗證
● 中大型開源項目
在對github 某 23k stars 的中大規模開源項目的實戰審計中,悟空 agent 的表現與傳統靜態應用安全測試(sast)工具形成了鮮明對照。具體差異可總結如下:
對比維度 | 傳統sast工具 | 悟空 agent |
有效漏洞發現 | 檢出數量有限,難以深入複雜邏輯 | 檢出較多 (項目中 >15個未披露漏洞) |
誤報情況 | 誤報率通常極高 | 誤報率顯著降低 |
分析能力 | 側重已知模式匹配,表層分析為主 | 深度邏輯推理,理解複雜輸入與上下文 |
審計效率 | 大量誤報耗費人工甄別時間 | 更聚焦高價值風險,提升人工效率 |
我們在持續迭代工具之餘,也及時向項目官方和 cve 官方披露了漏洞細節:

(圖:悟空團隊向項目官方披露漏洞細節及修復建議郵件)

(圖:cve 官方授予悟空團隊漏洞編號的郵件)
● 大型開源項目
為進一步檢驗悟空 agent 在處理超大規模、高複雜度項目上的實戰效能,我們選取了當前 ai 領域中廣受矚目且代碼量龐大的開源項目 langchain 作為目標,langchain其複雜的架構、眾多的依賴關係以及快速的迭代周期,對任何自動化安全審計工具而言都是一項嚴峻的挑戰。
面對如 langchain 這樣超 100k stars 的大型項目,悟空 agent 依然展現出其強大的分析推理能力,通過細緻的掃描和智能研判,悟空 agent 成功在langchain中識別出若干此前未被發現的潛在安全漏洞。

(圖:悟空 agent 後台檢出 langchain 項目的未披露漏洞)
我們高度重視這些發現,並已遵循負責任的漏洞披露原則,將相關的技術細節和潛在風險點整理後,已通過官方渠道或指定的第三方漏洞報告平台(如面向ai/ml項目的huntr)正式報送給 langchain 項目維護團隊及相關安全應急響應中心。
四、結語
悟空 agent 是 ai 在漏洞挖掘領域應用的成功案例,通過創新的多智能體協作模式,將0day漏洞的發現效率和準確性提升到了新的高度。ai技術的持續進化,正驅動網路安全邁向智能化、自動化新高度。這不僅是場技術革命,更是安全理念的升華——ai旨在賦能而非取代安全專家。
我們應積極擁抱這場變革,通過深化人機協同,共築更智能、主動且更具韌性的網路安全新範式。這將使安全專家得以從重複勞動中解放,專註於戰略性與創新性挑戰,最終推動整個網路安全生態實現跨越式提升。