曲凱: Agent 今年這波熱潮其實是 Manus 帶起來的,到現在為止,各種 Agent 大家已經投得不少了。那下一個熱點可能在哪裡?
我們覺得可能是 Agent Infra。
正好雷磊現在做的 Grasp 就是一個給 Agent 用的瀏覽器。你是怎麼想到要做Agent Infra 的?
雷磊: 首先,我相信未來 Agent 的數量會不斷增加,至少會達到現在 SaaS 數量的幾千倍。
而且 Agent 能直接交付結果,因此它其實就是一個數字員工,我們應該把它視為像人類一樣的終端用戶。但因為 Agent 與人類的形態截然不同,所以當下互聯網的很多基礎設施都是不適合 AI 使用的,都需要為 Agent 重構一遍。
那基於這兩點,Agent Infra 就是一個非常大的市場機會。
曲凱: 那未來 Agent 和人類到底會怎麼協作?你提到說 Agent 和人類完全不同,具體有哪些體現?
雷磊: 現階段大家普遍認為 Agent 是為人類服務的,但在我看來,未來應該是人類為 Agent 服務,因為 Agent 擁有更高的帶寬,能夠接觸到比人類更多的知識和信號。(當然,人類和 Agent 並不完全對立。)
在這個服務主體轉移的過程中,人類和 AI 的行為模式確實存在區別。

第一個區別在於交互方式。
人類的交互主要依賴視覺,因此為人類設計的產品需要一個前端界面,而 Agent 則可以通過文本和多模態在後端實現交互。
第二,人類和 Agent 的學習方式也不同。
人類無法同時「做事情」和「學東西」,因為這兩者涉及到大腦的不同區域。但 Agent 卻可以通過強化學習,在執行任務的同時進行學習。因此,為 Agent 設計產品時,至關重要的是設計一套獎勵機制。
舉個例子,當你使用瀏覽器時,系統不會頻繁彈出窗口來評價你的操作是否正確。但如果是為 Agent 設計的瀏覽器,就需要時時提供 +1 或 -1 的反饋,只有這樣,Agent 才能不斷提升操作能力。
第三個區別是單線程 VS 多線程。
人的工作模式是按照 workflow 逐一完成,而 AI 可以在多個節點同時跑很多任務。
在計算機領域,有一個類似的對比:人類的工作模式很像「貪婪算法」,總是關注局部最優,而 AI 的模式則很像「動態規劃」,始終追求全局最優。
不過這也引發了一個問題:當 Agent 並發執行任務時,該怎麼保持不同任務的狀態?
對於人類來說,上一個任務的結束就是下一個任務的開始,因此天然不需要去保持狀態。
然而,Agent 在一個節點上可能同時執行 100 個任務,這些任務的執行速度各異,有些快,有些慢,甚至有些可能需要人工干預,所以需要設計一種新的機制保證 Agent 能高效穩定地在不同任務間切換和協調。
第四個區別是責任界定的問題。
人可以為自己的行為負責,但誰來為 AI 的行為負責呢?這也就引申出一個問題,就是怎麼劃分 Agent 所處環境的安全邊界。
比如你手裡有一段代碼,如果這段代碼是你自己寫的,你當然可以接受這段代碼直接在你的電腦上運行,因為出了問題你可以負責。
但如果這段代碼是 AI 生成的呢?如果運行之後,你的文件全丟了,誰來負責?
為了解決這個問題,AI 執行任務時最基本的要求就是要有一個「安全圍欄」(類似於大家都在講的沙盒),來把 AI 所產生的影響控制在一定範圍內。
這個安全圍欄並不是要一刀切地限制住 Agent 的能力,而是要動態判斷哪些任務和信息可以交由 Agent 處理,而哪些不能。
一個典型的例子就是 E2B。
曲凱: 對,E2B 這個產品現在在美國很火,但我估計國內很多人可能還不太知道它。能不能給大家再介紹一下,E2B 到底是啥?
雷磊: 其實 E2B 的火爆,很大程度上是靠 Manus 帶起來的。
簡單來說,E2B 就是給代碼運行提供了一個安全又快速的沙盒環境。
曲凱: 那如果未來 Agent 的運行環境都在雲端,到時候是不是雲廠商的股票能漲得更好?
雷磊: 單憑這點來說是的。因為雲廠商的機會來自於大家對資源的需求,如果我們未來會消耗更多的資源、產生更多的數據,那雲廠商就是會更值錢。
但很關鍵的一點是這些雲廠商得順應時代潮流,否則很可能會被趕超,以至於被歷史淘汰。
曲凱: 所以你甚至會覺得 AI 時代有個新的雲廠商的機會嗎?
雷磊: 對,在我看來 AI 環境這件事就是一個 AWS 級別的機會。
曲凱: 但我聽下來,E2B 本身好像也沒做太多事情,那 E2B 和雲廠商的關係未來會是怎樣的?
雷磊: 雲廠商更多扮演的是基礎設施的角色,比如說我們構建一座房子,雲廠商有點像提供水電資源的地產商,而 E2B 則是負責將這些資源交付給住戶的裝修商。底層肯定還是由雲廠商提供最基礎的算力,而中間這一層像 E2B 這樣的 Infra,提供的就是能讓 Agent 真正運行的環境。
曲凱: 這個例子很妙。但很多地產商後來都開始拼裝修好的商品房了,那是不是未來一些雲廠商也會自己做 Agent Infra 的這些事情?或者至少 E2B 是一個很好的被收購標的。
雷磊: 這是一個很有意思的問題。在什麼情況下地產商會去卷商品房呢?
就是當市場容量不足,僅交付毛坯房的競爭力不夠時。
但 AI 市場的增長空間很大,所以我覺得在這個階段雲廠商和 Agent Infra 公司應該合作,想辦法把蛋糕做大,而不是過早地去考慮怎麼分蛋糕。
包括 Agent Infra 公司之間也應該如此。因為這個市場足夠大,所以能容納很多家公司、去提供不同的解決方案。
舉個例子。E2B 有一個競對叫 ForeverVM。E2B 主打的是「安全」,ForeverVM 主打的則是「狀態」,也就是確保 Agent 在執行多個任務時,即使反覆橫跳,也不會丟失之前的進度。
曲凱: 明白。其實最近美國那邊給 Agent 做的產品有兩個典型,一個是 E2B,另一個是 Browserbase。講完 E2B,我們再講講 Browserbase 吧,正好你們現在在做的也是與 Browser Use 相關的事情。
雷磊: Browserbase 也算是現在的一個當紅明星了,從融資額也能看出,它的估值在一年內漲到了 3 億美金。
它做的本質就是給 AI 用的瀏覽器。但與傳統瀏覽器的區別在於,首先它將瀏覽器雲端化了,其次針對 AI 使用瀏覽器的場景進行了優化。
我當時在字節的時候,特別喜歡一鳴的一個說法,叫做「務實的浪漫」。意思是除了「仰望星空」地眺望未來,也要「腳踏實地」地發現並解決眼下一些具體的問題。
那眼下有什麼問題呢?
數據表明,現在互聯網上已經有 40% 的流量來自機器人。但機器和人使用瀏覽器的方式有很大差別,怎麼能讓這些機器人更高效地使用瀏覽器,就是一個值得重新設計的問題。
比如,AI 需要 RAG 功能,所以 Browserbase 就設計了類似的功能,可以幫助 AI 自動獲取網站上的一些信息,作為上下文來輔助後續操作。
曲凱: 那「給 AI 用的瀏覽器」和「給人用的瀏覽器」具體有哪些區別?
雷磊: 首先,給 AI 用的瀏覽器一定是運行在雲端的,因為 AI 不需要休息,可以持續工作。
其次,人類需要先看到瀏覽器頁面上的信息,然後才能用鼠標操作,而 AI 完全不需要前端界面,它可以直接在後端運行。
第三,我們在給 AI 設計瀏覽器的時候會考慮怎麼設計反饋循環,因為我們相信未來 AI 要能自主收集反饋、自主迭代。
第四點與安全相關。這裡可以問大家一個問題:你願意把賬號密碼交給大模型嗎?
你大概率不願意。
但你在使用 Agent 的時候,可能也不希望它跑了半天卻沒法完成任務,每次遇到登錄問題時還要來煩你。

所以最佳情況是在確保密碼不泄露的前提下,能讓 Agent 有一定的自主性。
針對這個問題,我們開發了一個功能,就是當某個網站需要賬號密碼時,Agent 會自動判斷情況,並以一種純本地的方式填入你的賬號密碼,甚至是驗證碼。整個過程完全不需要人為干預,並且絕不會將你的任何信息傳遞給大模型。
第五點,就是在為 Agent 配置瀏覽器時,也需要考慮 Agent 多線程工作的連續性和成本。
因為大模型在操作瀏覽器時,往往涉及許多步驟,而且步驟之間可能存在間隔。比如,如果我們希望 Agent 在航司網站上購買一張機票,那麼當 Agent 進入下單頁面後,可能需要先去攜程搜索比對各種機票信息,然後將這些信息帶到另一個系統中進行推理。整個過程可能還需要人的介入,最終決定購買哪張機票後,再返回航司網站繼續操作。

此時,我們肯定希望航司網站的頁面仍然停留在下單頁,而不是重新加載。但由於中間步驟太多、各步驟耗時也較長,可能過程中就會導致雲端資源的浪費。
曲凱: 明白。那在 Browser Use 這個賽道里,Browserbase 已經做得挺不錯了,為什麼你們還要做?Grasp 和 Browserbase 有什麼區別?
雷磊: 要做一個具備 Browser Use 功能的 Agent,技術架構可以分為三層。
最底層叫 Runtime,有點類似於雲端的引擎。你可以將它理解為傳統的瀏覽器內核,主要解決拉取網頁信息、執行瀏覽器腳本、渲染圖片等問題。
但隨着 AI 的到來,中間新增了一個 Agentic 層。這一層負責控制 AI 與網頁的交互,包括怎麼從網頁獲取信息、怎麼生成一些信息來影響網頁,以及如何進行推理等等,最終再形成具體指令。
最上面一層是 Knowledge 層,也就是垂直領域的 knowhow。這一層是所有 Agent builder 需要重點關注的,因為它決定了你該怎麼設計反饋機制,從而優化最終交付給終端用戶的結果。
無論是 Browserbase,還是傳統的 Playwright、Chromium,本質上都屬於 Runtime 層。
而我們所做的是 Runtime 層 + Agentic 層。這兩層一方面工程量非常大,另一方面有許多需要解決的通用問題。因此,如果我們將這些工程和問題都解決,就能夠為開發者提供一個封裝好的 Agentic Browser。開發者只需結合自身的行業認知,就可能構建出自己的 Manus 或者 Fellou。
曲凱: 假設今天 Google 想做一個 Browserbase,是不是可以很快就做出來?
雷磊: 確實,只做 Runtime 沒有足夠大的壁壘。
曲凱: 所以 Runtime 層和 Agentic 層必須一起做才行?
雷磊: 是的,否則很多你想實現的功能就是無法實現。
曲凱: 那麼在 Agent Infra 中,除了像 E2B 這樣的代碼雲環境和 Browserbase 這樣的 Browser Use 產品,還有其他機會嗎?
雷磊: Agent Infra 大體可以分為環境和工具兩種。
環境最主要的就是 Coding 和 Browser。Coding 賦予了 Agent 執行一個邏輯的能力,而 Browser 則讓 Agent 擁有了與網頁信息交互的能力。
不過中間會有非常多的細分領域,比如 Browser 可以有不同的瀏覽方式、Coding 可以分解釋性語言和編譯性語言等等,而針對不同的痛點,自然會有不同的解決方案和公司出現。
此外可能還會有一些抽象的環境,比如運行數學公式的環境,以及與物理世界接觸的環境,比如傳感器、具身智能,包括像李飛飛團隊關注的空間智能等。
對於工具來說,如果把 Agent 看作終端用戶,那麼人類軟件史上曾經出現過的工具都有機會重寫一遍,比如 Agent 要不要有自己的身份?需不需要自己的電話去接收短信?是不是得有支付能力?

這裡也和大家分享一個思考框架,就是通過場景去找切入點。
舉幾個例子。
一個旅遊 Agent,在規划行程和導覽的場景里,常用的工具就包括 CRM 查詢,網絡搜索、購票支付以及身份認證等等,所以這些工具你都可以重做一遍。另外,這個 Agent 很可能會在瀏覽器環境里運行,然後通過接口或者網頁背後的 HTML 來執行任務,所以你也可以給它做一個專門的瀏覽器。

以此類推,你也可以為一個解題 Agent 去做定理檢索、繪圖,以及 LaTeX 等工具,也可以為它去寫一個新的公式執行器或者代碼執行器。

如果未來硬件有了突破,對於一個類似 Jarvis 的 Agent 來說,它需要的則是能夠幫助它與現實世界進行交互的工具,以及傳感器之類的感知環境。

這些還只是為單個 Agent 開發產品時需要考慮的因素。隨着未來 Multi Agent 的成熟,可能會有多個 Agent 一起協作和溝通,共同解決問題。到那時,我們還需要考慮怎麼去管控這些 Agent、怎麼促進它們之間的協作,以及如果某個 Agent 掛了該怎麼應對等等。

曲凱: 我記得你之前提到過一句話,你說今天的 Browser Use 有點像 22 年的 AI Coding,能不能解釋一下?
雷磊: 22 年的時候,大家對 AI Coding 還有很多懷疑,不確定它到底會發展成什麼樣子,但到了今天,基本上已經沒有人質疑它了。
這是因為大模型是不是能穩定地解決某類問題有一個很簡單的公式:
某問題的樣本集 × 模型的成功率 = 該問題的成功數量。
如果某類問題的成功數量能夠滿足人類的需求,那它就會被人們認可、逐漸成為主流。
對於 AI Coding 來說,自從 22 年 GPT 3.5 推出後,它的成功數量就突破了一個關鍵閾值,從而消除了人們的疑慮。
回到今天的 Browser Use,其實它的樣本數量比 Coding 還要大,只是目前模型的能力還不足,所以現在還有很多人認為 Browser Use 不夠實用。
但隨着大模型能力的不斷突破,當 Browser Use 的成功數量能夠滿足人們的需求時,人們對 Browser Use 的態度就會像今天對 AI Coding 一樣,而且這個過程會比 AI Coding 來得更快。
曲凱: 那 AI Coding 現在全球有幾百家公司在做,也有很多估值很高的公司了,你覺得未來 Browser Use 也會是這樣嗎?
雷磊: 其實哪怕是 AI Coding,我覺得仍然處於市場早期。因為如果從商業層面來看,全球軟件開發的總市值大概有 3 - 4 萬億美金。只要 AI 能夠在其中提升 5% 的效率,那就是一個 1500 億美金的市場。但是今天 AI Coding 可能也就是一個小 100 億美金的市場,還有很大的增長空間。
Browser Use 也是同樣的道理。假如我們通過互聯網進行的銷售、招聘、獲客等活動,能夠通過 AI 提升 5% 的效率,那就是一個非常有潛力的大市場。
曲凱: 那現在大家對於給 Agent 做產品這件事情,有什麼很強的非共識嗎?
雷磊: 大家對於「給 Agent 做的產品到底最關鍵的是什麼」這一點看法不太一樣。有人認為是上下文,有人認為是更好的數據,或者更強大的模型。
但在我看來,最關鍵的是怎麼設計一個好的反饋循環,讓 AI 能夠自我迭代。
我覺得人類最大的一個偏見,就是我們非常相信人類的先驗知識對大模型來說很重要,所以我們不停地把我們的知識灌輸給大模型,覺得這樣它會越來越聰明。
但有沒有可能人類的知識對大模型來說其實毫無必要呢?
舉個例子。DeepMind 團隊做了一個解奧數題的產品,叫 AlphaProof。他們團隊只設計了一些基本的獎勵信號,做對了題目 Reward + 1,做錯了 Reward - 1,然後就開始讓 AlphaProof 自己做題。AlphaProof 不參考任何人類解題的思路,就是從 0 開始通過強化學習的方式自主探索、自主迭代。但靠着這種方式,它去年已經摘取了國際奧數大賽的銀牌。
曲凱: 就像 AlphaZero 一樣,對吧?最後大家發現人類的棋譜對它來說其實根本沒有用。
雷磊: 對,所以我覺得未來最重要的範式轉變,就是讓 AI 通過 Coding 和 Browser 之類的環境,自己去體驗世界、獲取真實的反饋,並通過這些反饋自主迭代,而不是一味依賴人類數據。
強化學習之父 Richard Sutton 和 David Silver 最近合作撰寫的論文《The Era of Experience》裡面核心也是在講這件事。
曲凱: 最後我想問,我們今天聊的很多東西的基礎就是「未來 Agent 真的會起來」,那 Agent 到底什麼時候會起來?
雷磊: 與其思考 Agent 什麼時候會起來,我覺得更重要的是思考在 Agent 崛起的那一天,我們能夠提前為 Agent 做些什麼、提供什麼樣的價值。