單任務狂飆16小時!模型+Harness雙輪驅動,金融Agent跑通了

編輯:好睏 KingHZ

【新智元導讀】20天長流程、token嚴格控制在每單50k以內,AI審批預計能提速150%以上,單均成本預計可以降至人工五分之一。易鑫Harness不是簡單套殼,而是把選擇性壓縮、實時檢索、審計圖譜全部打通,讓Agent真正「越用越聰明」。

2026年,AI圈最熱的詞不是模型,也不是記憶,而是一個被翻譯得有點彆扭的英文單詞——Harness

馬具,韁繩,駕馭。

最近,Anthropic在Claude Platform上放出了Managed Agents的公開beta。業內立刻給它貼了一個標籤,meta-Harness。

一句話翻譯過來,模型已經不是瓶頸了,真正決定Agent能不能幹活的,是模型外面那套「駕馭系統」。

LangChain創始人Harrison Chase說得更直白一點,「Harness和上下文工程跟模型質量一樣重要」。

VentureBeat的市場追蹤給出了實錘。一個月內,Anthropic工具與工作流API的採用率,從0%直接飆到了5.7%。企業用Claude,用的就是它配套的編排方案。

如今,Harness從工程內部用語,一躍成為了Agent產品繞不開的基礎設施。

Harness是多層結構,並非單一模型套殼

但這只是故事的一半。

通用Harness跑不了的金融訂單

Anthropic做的Managed Agents,主要服務coding、文檔生成、任務自動化這類通用場景。

這些任務有一個共性,邊界相對清晰,錯了大不了重跑一次。

但一些行業不是這樣,比如金融行業。

一筆汽車貸款,從客戶進件到資產管理,單筆金額幾萬到幾十萬,整個生命周期超過20天,要跨越15個以上關鍵決策節點,正向逆向反覆評估,決策路徑組合可以達到幾萬種。

中間任何一步AI出錯,比如材料審核漏了一個關鍵瑕疵,後果都不是「再來一次」能解決的。

所以,從設計目標開始,金融行業要的Harness,跟通用場景的Harness就不一樣。

通用場景的Harness在乎怎麼讓模型在長上下文里不丟失記憶、怎麼管理工具調用。

金融場景的Harness在乎合規邊界怎麼實時兜底、模型幻覺的瞬間怎麼把人工接進來、20天的訂單流里數據全程能不能審計。

4月14日,香港世界互聯網大會亞太峰會的「智能體創新與應用論壇」上,易鑫首席科技官賈志峰把這件事點了出來。

易鑫是國內最具規模的AI驅動的金融科技平台,以服務汽車金融生態為使命。2017年在香港上市,2025年成為港交所科技100指數成員。目前年交易額已達到約750億元人民幣,全球擁有員工5000多人

並且,他還拋出一個計劃——

今年下半年,易鑫將開源部分自研Harness Framework。

這是全球汽車金融行業第一份公開的Agent治理基礎設施。

不是套一層殼,

是三層「駕馭體系」

在演講里,賈志峰直接區分了易鑫的Harness跟通用方案。

和通用AI公司側重memory、context這些技術模塊設計不同,我們的設計是一個更全面的三個層次的駕馭體系。

三層分別是人類駕馭層、Agentic駕馭層、數據駕馭層。

人類駕馭層解決一件事,Agent和真人能不能在一筆訂單流里實時無縫切換。

舉個例子。

客戶按要求上傳一張銀行流水的照片,IM Agent接管做OCR和結構化提取。

系統會判斷這張照片是否包含風險字段或不符合要求的字段。

比如,要求提供6個月流水,但只給了3個月;再比如要求流水裡必須提供收入,但實際流水裡收入為0。

此時,Harness就會立刻把訂單轉給真人審核員,並且把前面所有對話上下文完整交接過去。

「Agent搞不定就轉人工」,這種簡單兜底邏輯做不到這一點。

Harness的人類駕馭層覆蓋語音、文字、圖片多模態,關鍵業務節點強制要求人工介入,轉手時信息完整率必須做到100%。

人工不是替補,是工作流從一開始就設計進去的角色。

Agentic駕馭層解決模型出錯的瞬間,比如當模型出現「幻覺」或違規承諾時,系統會在毫秒級觸發熔斷,切換到人工鏈路。

舉個金融場景里的真實痛點。模型在誘導下承諾了一個黑名單客戶肯定能放款,那麼這筆訂單就會成為合規風險事件。

Harness這一層的工作是在模型把話說出口之前攔截,並且根據客戶互動的實時特點重新規劃後續路徑,不按預設腳本死板執行。

在3月底的工程博客中,Anthropic就提到一個有意思的現象:

Harness里塞進去的某些補丁,會隨着模型升級而過時。

比如他們為Claude Sonnet 4.5加的上下文重置,在Claude Opus 4.5上就不再需要。

易鑫這層Harness的設計思路對應了同一個判斷。

賈志峰在演講里說了一句,「讓模型越來越強,Harness越來越輕」。

Harness發現的問題要不斷迴流到模型訓練里,讓模型自己內化掉,避免長期用Harness打補丁。

數據駕馭層把人類操作數據和Agent操作數據打通。

不只給運行階段做護欄,還給訓練階段提供高質量數據。

更關鍵的是合規。從數據接入、流轉、清洗脫敏,到最終進入哪個版本的模型訓練,全部建立關聯圖譜,模型表現一旦發生變化能立刻定位、快速調整。

這是金融監管最在意的事情,可追溯、可審計。在通用Agent領域可有可無的能力,在金融行業是過審的硬門檻。

需要強調的是,他們的Harness Framework並不是一個孤立存在的模塊,而是整體貫穿Application、Products、Models 這三層架構,融合在業務的各個節點。

在Agent的推理「Inference」和訓練「Training」兩個階段,易鑫的Harness Framework都發揮作用,具備持續治理能力。

65%自主交付,單任務跑16小時

把這套體系工程化嵌進業務後,整個系統「越用越聰明」 : 所有交互數據沉澱,幫助AI持續學習與不斷進化。

最後,易鑫實測出來的數字是這樣的。

  • 單次任務可持續執行16小時。
  • 跨12個會話連續推進。
  • Agent自主交付成果達65%。
  • 轉化率提升20%以上。
  • 整體運營效率提升100%以上。

這些數字放在通用Agent領域是什麼概念。

在demo里展示的長任務記錄,國外AI巨頭OpenAI、Anthropic不過大多在幾小時量級。

Cognition的Devin早期演示也只敢做小時級別的連續工作。

能做到「單次任務16小時、跨12個會話」並且還能穩定交付,需要的不只是AI能力,還有整個業務流程的升級。

審批環節做得更狠。根據易鑫估計,AI理論上能讓審批時長縮短150%以上,單均成本降到人工的五分之一,token消耗嚴格控制在每單50k以內。

token這個數字是關鍵。

20天+的長流程任務里,如果每一輪交互都把全量歷史灌進上下文,token成本會指數級上漲。

控制在50k一單,意味着Harness在不斷做選擇性壓縮、歸檔和檢索,把真正影響下一步決策的信息留在窗口裡。

「Agentic基礎模型和Harness AI Infra,是金融垂直行業真正把Agent用起來的兩個輪子,缺一不可。」賈志峰在演講里這樣總結。

從開源模型到開源基礎設施

易鑫不是第一次做開源。

2025年,易鑫先後開源了汽車金融行業第一個Reasoning模型YiXin-Distill-Qwen-72B、Agentic模型YiXin-Agentic-Qwen3-14B。

今年下半年的Harness Framework開源,是順着同一條路徑往上走一步。

按賈志峰的說法,發佈時間預計在2026年烏鎮峰會前後。

這個時間窗口和Anthropic開放Managed Agents的節奏幾乎咬住:

  • 前者在通用場景把Harness產品化,
  • 後者在金融垂直場景把Harness開源化。

在一篇題為「The Anatomy of an Agent Harness」的博客中,LangChain給出了一個簡潔的公式:

Agent = Model + Harness

模型負責智能,Harness負責把智能變成有用的工作。

但公式只是起點。

通用Agent的Harness想讓模型跑得更順,金融行業的Harness想讓模型不出事。

Anthropic把通用場景的答案產品化了,每小時0.08美元。

易鑫要把金融場景的答案開源出來,一行代碼不收錢。

Agent能不能走出coding demo、走進那些「錯一次就賠不起」的行業,答案就藏在這份即將開源的Harness Framework里。