單任務狂飆16小時！模型+Harness雙輪驅動，金融Agent跑通了

分類：科技

瀏覽數：1136

2026-04-17

編輯：好睏 KingHZ

【新智元導讀】20天長流程、token嚴格控制在每單50k以內，AI審批預計能提速150%以上，單均成本預計可以降至人工五分之一。易鑫Harness不是簡單套殼，而是把選擇性壓縮、實時檢索、審計圖譜全部打通，讓Agent真正「越用越聰明」。

2026年，AI圈最熱的詞不是模型，也不是記憶，而是一個被翻譯得有點彆扭的英文單詞——Harness。

馬具，韁繩，駕馭。

最近，Anthropic在Claude Platform上放出了Managed Agents的公開beta。業內立刻給它貼了一個標籤，meta-Harness。

一句話翻譯過來，模型已經不是瓶頸了，真正決定Agent能不能幹活的，是模型外面那套「駕馭系統」。

LangChain創始人Harrison Chase說得更直白一點，「Harness和上下文工程跟模型質量一樣重要」。

VentureBeat的市場追蹤給出了實錘。一個月內，Anthropic工具與工作流API的採用率，從0%直接飆到了5.7%。企業用Claude，用的就是它配套的編排方案。

如今，Harness從工程內部用語，一躍成為了Agent產品繞不開的基礎設施。

Harness是多層結構，並非單一模型套殼

但這只是故事的一半。

通用Harness跑不了的金融訂單

Anthropic做的Managed Agents，主要服務coding、文檔生成、任務自動化這類通用場景。

這些任務有一個共性，邊界相對清晰，錯了大不了重跑一次。

但一些行業不是這樣，比如金融行業。

一筆汽車貸款，從客戶進件到資產管理，單筆金額幾萬到幾十萬，整個生命周期超過20天，要跨越15個以上關鍵決策節點，正向逆向反覆評估，決策路徑組合可以達到幾萬種。

中間任何一步AI出錯，比如材料審核漏了一個關鍵瑕疵，後果都不是「再來一次」能解決的。

所以，從設計目標開始，金融行業要的Harness，跟通用場景的Harness就不一樣。

通用場景的Harness在乎怎麼讓模型在長上下文里不丟失記憶、怎麼管理工具調用。

金融場景的Harness在乎合規邊界怎麼實時兜底、模型幻覺的瞬間怎麼把人工接進來、20天的訂單流里數據全程能不能審計。

4月14日，香港世界互聯網大會亞太峰會的「智能體創新與應用論壇」上，易鑫首席科技官賈志峰把這件事點了出來。

易鑫是國內最具規模的AI驅動的金融科技平台，以服務汽車金融生態為使命。2017年在香港上市，2025年成為港交所科技100指數成員。目前年交易額已達到約750億元人民幣，全球擁有員工5000多人

並且，他還拋出一個計劃——

今年下半年，易鑫將開源部分自研Harness Framework。

這是全球汽車金融行業第一份公開的Agent治理基礎設施。

不是套一層殼，

是三層「駕馭體系」

在演講里，賈志峰直接區分了易鑫的Harness跟通用方案。

和通用AI公司側重memory、context這些技術模塊設計不同，我們的設計是一個更全面的三個層次的駕馭體系。

三層分別是人類駕馭層、Agentic駕馭層、數據駕馭層。

人類駕馭層解決一件事，Agent和真人能不能在一筆訂單流里實時無縫切換。

舉個例子。

客戶按要求上傳一張銀行流水的照片，IM Agent接管做OCR和結構化提取。

系統會判斷這張照片是否包含風險字段或不符合要求的字段。

比如，要求提供6個月流水，但只給了3個月；再比如要求流水裡必須提供收入，但實際流水裡收入為0。

此時，Harness就會立刻把訂單轉給真人審核員，並且把前面所有對話上下文完整交接過去。

「Agent搞不定就轉人工」，這種簡單兜底邏輯做不到這一點。

Harness的人類駕馭層覆蓋語音、文字、圖片多模態，關鍵業務節點強制要求人工介入，轉手時信息完整率必須做到100%。

人工不是替補，是工作流從一開始就設計進去的角色。

Agentic駕馭層解決模型出錯的瞬間，比如當模型出現「幻覺」或違規承諾時，系統會在毫秒級觸發熔斷，切換到人工鏈路。

舉個金融場景里的真實痛點。模型在誘導下承諾了一個黑名單客戶肯定能放款，那麼這筆訂單就會成為合規風險事件。

Harness這一層的工作是在模型把話說出口之前攔截，並且根據客戶互動的實時特點重新規劃後續路徑，不按預設腳本死板執行。

在3月底的工程博客中，Anthropic就提到一個有意思的現象：

Harness里塞進去的某些補丁，會隨着模型升級而過時。

比如他們為Claude Sonnet 4.5加的上下文重置，在Claude Opus 4.5上就不再需要。

易鑫這層Harness的設計思路對應了同一個判斷。

賈志峰在演講里說了一句，「讓模型越來越強，Harness越來越輕」。

Harness發現的問題要不斷迴流到模型訓練里，讓模型自己內化掉，避免長期用Harness打補丁。

數據駕馭層把人類操作數據和Agent操作數據打通。

不只給運行階段做護欄，還給訓練階段提供高質量數據。

更關鍵的是合規。從數據接入、流轉、清洗脫敏，到最終進入哪個版本的模型訓練，全部建立關聯圖譜，模型表現一旦發生變化能立刻定位、快速調整。

這是金融監管最在意的事情，可追溯、可審計。在通用Agent領域可有可無的能力，在金融行業是過審的硬門檻。

需要強調的是，他們的Harness Framework並不是一個孤立存在的模塊，而是整體貫穿Application、Products、Models 這三層架構，融合在業務的各個節點。

在Agent的推理「Inference」和訓練「Training」兩個階段，易鑫的Harness Framework都發揮作用，具備持續治理能力。

65%自主交付，單任務跑16小時

把這套體系工程化嵌進業務後，整個系統「越用越聰明」 : 所有交互數據沉澱，幫助AI持續學習與不斷進化。

最後，易鑫實測出來的數字是這樣的。

單次任務可持續執行16小時。
跨12個會話連續推進。
Agent自主交付成果達65%。
轉化率提升20%以上。
整體運營效率提升100%以上。

這些數字放在通用Agent領域是什麼概念。

在demo里展示的長任務記錄，國外AI巨頭OpenAI、Anthropic不過大多在幾小時量級。

Cognition的Devin早期演示也只敢做小時級別的連續工作。

能做到「單次任務16小時、跨12個會話」並且還能穩定交付，需要的不只是AI能力，還有整個業務流程的升級。

審批環節做得更狠。根據易鑫估計，AI理論上能讓審批時長縮短150%以上，單均成本降到人工的五分之一，token消耗嚴格控制在每單50k以內。

token這個數字是關鍵。

20天+的長流程任務里，如果每一輪交互都把全量歷史灌進上下文，token成本會指數級上漲。

控制在50k一單，意味着Harness在不斷做選擇性壓縮、歸檔和檢索，把真正影響下一步決策的信息留在窗口裡。

「Agentic基礎模型和Harness AI Infra，是金融垂直行業真正把Agent用起來的兩個輪子，缺一不可。」賈志峰在演講里這樣總結。

從開源模型到開源基礎設施

易鑫不是第一次做開源。

2025年，易鑫先後開源了汽車金融行業第一個Reasoning模型YiXin-Distill-Qwen-72B、Agentic模型YiXin-Agentic-Qwen3-14B。

今年下半年的Harness Framework開源，是順着同一條路徑往上走一步。

按賈志峰的說法，發佈時間預計在2026年烏鎮峰會前後。

這個時間窗口和Anthropic開放Managed Agents的節奏幾乎咬住：

前者在通用場景把Harness產品化，
後者在金融垂直場景把Harness開源化。

在一篇題為「The Anatomy of an Agent Harness」的博客中，LangChain給出了一個簡潔的公式：

Agent = Model + Harness

模型負責智能，Harness負責把智能變成有用的工作。

但公式只是起點。

通用Agent的Harness想讓模型跑得更順，金融行業的Harness想讓模型不出事。

Anthropic把通用場景的答案產品化了，每小時0.08美元。

易鑫要把金融場景的答案開源出來，一行代碼不收錢。

Agent能不能走出coding demo、走進那些「錯一次就賠不起」的行業，答案就藏在這份即將開源的Harness Framework里。

科技分類資訊推薦