我不給人做產品，給Agent做|42章經

2025年06月30日11:02:04 科技 1335

曲凱： Agent 今年這波熱潮其實是 Manus 帶起來的，到現在為止，各種 Agent 大家已經投得不少了。那下一個熱點可能在哪裡？

我們覺得可能是 Agent Infra。

正好雷磊現在做的 Grasp 就是一個給 Agent 用的瀏覽器。你是怎麼想到要做Agent Infra 的？

雷磊： 首先，我相信未來 Agent 的數量會不斷增加，至少會達到現在 SaaS 數量的幾千倍。

而且 Agent 能直接交付結果，因此它其實就是一個數字員工，我們應該把它視為像人類一樣的終端用戶。但因為 Agent 與人類的形態截然不同，所以當下互聯網的很多基礎設施都是不適合 AI 使用的，都需要為 Agent 重構一遍。

那基於這兩點，Agent Infra 就是一個非常大的市場機會。

曲凱： 那未來 Agent 和人類到底會怎麼協作？你提到說 Agent 和人類完全不同，具體有哪些體現？

雷磊： 現階段大家普遍認為 Agent 是為人類服務的，但在我看來，未來應該是人類為 Agent 服務，因為 Agent 擁有更高的帶寬，能夠接觸到比人類更多的知識和信號。(當然，人類和 Agent 並不完全對立。)

在這個服務主體轉移的過程中，人類和 AI 的行為模式確實存在區別。

第一個區別在於交互方式。

人類的交互主要依賴視覺，因此為人類設計的產品需要一個前端界面，而 Agent 則可以通過文本和多模態在後端實現交互。

第二，人類和 Agent 的學習方式也不同。

人類無法同時「做事情」和「學東西」，因為這兩者涉及到大腦的不同區域。但 Agent 卻可以通過強化學習，在執行任務的同時進行學習。因此，為 Agent 設計產品時，至關重要的是設計一套獎勵機制。

舉個例子，當你使用瀏覽器時，系統不會頻繁彈出窗口來評價你的操作是否正確。但如果是為 Agent 設計的瀏覽器，就需要時時提供 +1 或 -1 的反饋，只有這樣，Agent 才能不斷提升操作能力。

第三個區別是單線程 VS 多線程。

人的工作模式是按照 workflow 逐一完成，而 AI 可以在多個節點同時跑很多任務。

在計算機領域，有一個類似的對比：人類的工作模式很像「貪婪算法」，總是關注局部最優，而 AI 的模式則很像「動態規劃」，始終追求全局最優。

不過這也引發了一個問題：當 Agent 並發執行任務時，該怎麼保持不同任務的狀態？

對於人類來說，上一個任務的結束就是下一個任務的開始，因此天然不需要去保持狀態。

然而，Agent 在一個節點上可能同時執行 100 個任務，這些任務的執行速度各異，有些快，有些慢，甚至有些可能需要人工干預，所以需要設計一種新的機制保證 Agent 能高效穩定地在不同任務間切換和協調。

第四個區別是責任界定的問題。

人可以為自己的行為負責，但誰來為 AI 的行為負責呢？這也就引申出一個問題，就是怎麼劃分 Agent 所處環境的安全邊界。

比如你手裡有一段代碼，如果這段代碼是你自己寫的，你當然可以接受這段代碼直接在你的電腦上運行，因為出了問題你可以負責。

但如果這段代碼是 AI 生成的呢？如果運行之後，你的文件全丟了，誰來負責？

為了解決這個問題，AI 執行任務時最基本的要求就是要有一個「安全圍欄」（類似於大家都在講的沙盒），來把 AI 所產生的影響控制在一定範圍內。

這個安全圍欄並不是要一刀切地限制住 Agent 的能力，而是要動態判斷哪些任務和信息可以交由 Agent 處理，而哪些不能。

一個典型的例子就是 E2B。

曲凱： 對，E2B 這個產品現在在美國很火，但我估計國內很多人可能還不太知道它。能不能給大家再介紹一下，E2B 到底是啥？

雷磊： 其實 E2B 的火爆，很大程度上是靠 Manus 帶起來的。

簡單來說，E2B 就是給代碼運行提供了一個安全又快速的沙盒環境。

曲凱： 那如果未來 Agent 的運行環境都在雲端，到時候是不是雲廠商的股票能漲得更好？

雷磊： 單憑這點來說是的。因為雲廠商的機會來自於大家對資源的需求，如果我們未來會消耗更多的資源、產生更多的數據，那雲廠商就是會更值錢。

但很關鍵的一點是這些雲廠商得順應時代潮流，否則很可能會被趕超，以至於被歷史淘汰。

曲凱： 所以你甚至會覺得 AI 時代有個新的雲廠商的機會嗎？

雷磊： 對，在我看來 AI 環境這件事就是一個 AWS 級別的機會。

曲凱： 但我聽下來，E2B 本身好像也沒做太多事情，那 E2B 和雲廠商的關係未來會是怎樣的？

雷磊： 雲廠商更多扮演的是基礎設施的角色，比如說我們構建一座房子，雲廠商有點像提供水電資源的地產商，而 E2B 則是負責將這些資源交付給住戶的裝修商。底層肯定還是由雲廠商提供最基礎的算力，而中間這一層像 E2B 這樣的 Infra，提供的就是能讓 Agent 真正運行的環境。

曲凱： 這個例子很妙。但很多地產商後來都開始拼裝修好的商品房了，那是不是未來一些雲廠商也會自己做 Agent Infra 的這些事情？或者至少 E2B 是一個很好的被收購標的。

雷磊： 這是一個很有意思的問題。在什麼情況下地產商會去卷商品房呢？

就是當市場容量不足，僅交付毛坯房的競爭力不夠時。

但 AI 市場的增長空間很大，所以我覺得在這個階段雲廠商和 Agent Infra 公司應該合作，想辦法把蛋糕做大，而不是過早地去考慮怎麼分蛋糕。

包括 Agent Infra 公司之間也應該如此。因為這個市場足夠大，所以能容納很多家公司、去提供不同的解決方案。

舉個例子。E2B 有一個競對叫 ForeverVM。E2B 主打的是「安全」，ForeverVM 主打的則是「狀態」，也就是確保 Agent 在執行多個任務時，即使反覆橫跳，也不會丟失之前的進度。

曲凱： 明白。其實最近美國那邊給 Agent 做的產品有兩個典型，一個是 E2B，另一個是 Browserbase。講完 E2B，我們再講講 Browserbase 吧，正好你們現在在做的也是與 Browser Use 相關的事情。

雷磊： Browserbase 也算是現在的一個當紅明星了，從融資額也能看出，它的估值在一年內漲到了 3 億美金。

它做的本質就是給 AI 用的瀏覽器。但與傳統瀏覽器的區別在於，首先它將瀏覽器雲端化了，其次針對 AI 使用瀏覽器的場景進行了優化。

我當時在字節的時候，特別喜歡一鳴的一個說法，叫做「務實的浪漫」。意思是除了「仰望星空」地眺望未來，也要「腳踏實地」地發現並解決眼下一些具體的問題。

那眼下有什麼問題呢？

數據表明，現在互聯網上已經有 40% 的流量來自機器人。但機器和人使用瀏覽器的方式有很大差別，怎麼能讓這些機器人更高效地使用瀏覽器，就是一個值得重新設計的問題。

比如，AI 需要 RAG 功能，所以 Browserbase 就設計了類似的功能，可以幫助 AI 自動獲取網站上的一些信息，作為上下文來輔助後續操作。

曲凱： 那「給 AI 用的瀏覽器」和「給人用的瀏覽器」具體有哪些區別？

雷磊： 首先，給 AI 用的瀏覽器一定是運行在雲端的，因為 AI 不需要休息，可以持續工作。

其次，人類需要先看到瀏覽器頁面上的信息，然後才能用鼠標操作，而 AI 完全不需要前端界面，它可以直接在後端運行。

第三，我們在給 AI 設計瀏覽器的時候會考慮怎麼設計反饋循環，因為我們相信未來 AI 要能自主收集反饋、自主迭代。

第四點與安全相關。這裡可以問大家一個問題：你願意把賬號密碼交給大模型嗎？

你大概率不願意。

但你在使用 Agent 的時候，可能也不希望它跑了半天卻沒法完成任務，每次遇到登錄問題時還要來煩你。

所以最佳情況是在確保密碼不泄露的前提下，能讓 Agent 有一定的自主性。

針對這個問題，我們開發了一個功能，就是當某個網站需要賬號密碼時，Agent 會自動判斷情況，並以一種純本地的方式填入你的賬號密碼，甚至是驗證碼。整個過程完全不需要人為干預，並且絕不會將你的任何信息傳遞給大模型。

第五點，就是在為 Agent 配置瀏覽器時，也需要考慮 Agent 多線程工作的連續性和成本。

因為大模型在操作瀏覽器時，往往涉及許多步驟，而且步驟之間可能存在間隔。比如，如果我們希望 Agent 在航司網站上購買一張機票，那麼當 Agent 進入下單頁面後，可能需要先去攜程搜索比對各種機票信息，然後將這些信息帶到另一個系統中進行推理。整個過程可能還需要人的介入，最終決定購買哪張機票後，再返回航司網站繼續操作。

此時，我們肯定希望航司網站的頁面仍然停留在下單頁，而不是重新加載。但由於中間步驟太多、各步驟耗時也較長，可能過程中就會導致雲端資源的浪費。

曲凱： 明白。那在 Browser Use 這個賽道里，Browserbase 已經做得挺不錯了，為什麼你們還要做？Grasp 和 Browserbase 有什麼區別？

雷磊： 要做一個具備 Browser Use 功能的 Agent，技術架構可以分為三層。

最底層叫 Runtime，有點類似於雲端的引擎。你可以將它理解為傳統的瀏覽器內核，主要解決拉取網頁信息、執行瀏覽器腳本、渲染圖片等問題。

但隨着 AI 的到來，中間新增了一個 Agentic 層。這一層負責控制 AI 與網頁的交互，包括怎麼從網頁獲取信息、怎麼生成一些信息來影響網頁，以及如何進行推理等等，最終再形成具體指令。

最上面一層是 Knowledge 層，也就是垂直領域的 knowhow。這一層是所有 Agent builder 需要重點關注的，因為它決定了你該怎麼設計反饋機制，從而優化最終交付給終端用戶的結果。

無論是 Browserbase，還是傳統的 Playwright、Chromium，本質上都屬於 Runtime 層。

而我們所做的是 Runtime 層 + Agentic 層。這兩層一方面工程量非常大，另一方面有許多需要解決的通用問題。因此，如果我們將這些工程和問題都解決，就能夠為開發者提供一個封裝好的 Agentic Browser。開發者只需結合自身的行業認知，就可能構建出自己的 Manus 或者 Fellou。

曲凱： 假設今天 Google 想做一個 Browserbase，是不是可以很快就做出來？

雷磊： 確實，只做 Runtime 沒有足夠大的壁壘。

曲凱： 所以 Runtime 層和 Agentic 層必須一起做才行？

雷磊： 是的，否則很多你想實現的功能就是無法實現。

曲凱： 那麼在 Agent Infra 中，除了像 E2B 這樣的代碼雲環境和 Browserbase 這樣的 Browser Use 產品，還有其他機會嗎？

雷磊： Agent Infra 大體可以分為環境和工具兩種。

環境最主要的就是 Coding 和 Browser。Coding 賦予了 Agent 執行一個邏輯的能力，而 Browser 則讓 Agent 擁有了與網頁信息交互的能力。

不過中間會有非常多的細分領域，比如 Browser 可以有不同的瀏覽方式、Coding 可以分解釋性語言和編譯性語言等等，而針對不同的痛點，自然會有不同的解決方案和公司出現。

此外可能還會有一些抽象的環境，比如運行數學公式的環境，以及與物理世界接觸的環境，比如傳感器、具身智能，包括像李飛飛團隊關注的空間智能等。

對於工具來說，如果把 Agent 看作終端用戶，那麼人類軟件史上曾經出現過的工具都有機會重寫一遍，比如 Agent 要不要有自己的身份？需不需要自己的電話去接收短信？是不是得有支付能力？

這裡也和大家分享一個思考框架，就是通過場景去找切入點。

舉幾個例子。

一個旅遊 Agent，在規划行程和導覽的場景里，常用的工具就包括 CRM 查詢，網絡搜索、購票支付以及身份認證等等，所以這些工具你都可以重做一遍。另外，這個 Agent 很可能會在瀏覽器環境里運行，然後通過接口或者網頁背後的 HTML 來執行任務，所以你也可以給它做一個專門的瀏覽器。

以此類推，你也可以為一個解題 Agent 去做定理檢索、繪圖，以及 LaTeX 等工具，也可以為它去寫一個新的公式執行器或者代碼執行器。

如果未來硬件有了突破，對於一個類似 Jarvis 的 Agent 來說，它需要的則是能夠幫助它與現實世界進行交互的工具，以及傳感器之類的感知環境。

這些還只是為單個 Agent 開發產品時需要考慮的因素。隨着未來 Multi Agent 的成熟，可能會有多個 Agent 一起協作和溝通，共同解決問題。到那時，我們還需要考慮怎麼去管控這些 Agent、怎麼促進它們之間的協作，以及如果某個 Agent 掛了該怎麼應對等等。

曲凱： 我記得你之前提到過一句話，你說今天的 Browser Use 有點像 22 年的 AI Coding，能不能解釋一下？

雷磊： 22 年的時候，大家對 AI Coding 還有很多懷疑，不確定它到底會發展成什麼樣子，但到了今天，基本上已經沒有人質疑它了。

這是因為大模型是不是能穩定地解決某類問題有一個很簡單的公式：

某問題的樣本集 × 模型的成功率 = 該問題的成功數量。

如果某類問題的成功數量能夠滿足人類的需求，那它就會被人們認可、逐漸成為主流。

對於 AI Coding 來說，自從 22 年 GPT 3.5 推出後，它的成功數量就突破了一個關鍵閾值，從而消除了人們的疑慮。

回到今天的 Browser Use，其實它的樣本數量比 Coding 還要大，只是目前模型的能力還不足，所以現在還有很多人認為 Browser Use 不夠實用。

但隨着大模型能力的不斷突破，當 Browser Use 的成功數量能夠滿足人們的需求時，人們對 Browser Use 的態度就會像今天對 AI Coding 一樣，而且這個過程會比 AI Coding 來得更快。

曲凱： 那 AI Coding 現在全球有幾百家公司在做，也有很多估值很高的公司了，你覺得未來 Browser Use 也會是這樣嗎？

雷磊： 其實哪怕是 AI Coding，我覺得仍然處於市場早期。因為如果從商業層面來看，全球軟件開發的總市值大概有 3 - 4 萬億美金。只要 AI 能夠在其中提升 5% 的效率，那就是一個 1500 億美金的市場。但是今天 AI Coding 可能也就是一個小 100 億美金的市場，還有很大的增長空間。

Browser Use 也是同樣的道理。假如我們通過互聯網進行的銷售、招聘、獲客等活動，能夠通過 AI 提升 5% 的效率，那就是一個非常有潛力的大市場。

曲凱： 那現在大家對於給 Agent 做產品這件事情，有什麼很強的非共識嗎？

雷磊： 大家對於「給 Agent 做的產品到底最關鍵的是什麼」這一點看法不太一樣。有人認為是上下文，有人認為是更好的數據，或者更強大的模型。

但在我看來，最關鍵的是怎麼設計一個好的反饋循環，讓 AI 能夠自我迭代。

我覺得人類最大的一個偏見，就是我們非常相信人類的先驗知識對大模型來說很重要，所以我們不停地把我們的知識灌輸給大模型，覺得這樣它會越來越聰明。

但有沒有可能人類的知識對大模型來說其實毫無必要呢？

舉個例子。DeepMind 團隊做了一個解奧數題的產品，叫 AlphaProof。他們團隊只設計了一些基本的獎勵信號，做對了題目 Reward + 1，做錯了 Reward - 1，然後就開始讓 AlphaProof 自己做題。AlphaProof 不參考任何人類解題的思路，就是從 0 開始通過強化學習的方式自主探索、自主迭代。但靠着這種方式，它去年已經摘取了國際奧數大賽的銀牌。

曲凱： 就像 AlphaZero 一樣，對吧？最後大家發現人類的棋譜對它來說其實根本沒有用。

雷磊： 對，所以我覺得未來最重要的範式轉變，就是讓 AI 通過 Coding 和 Browser 之類的環境，自己去體驗世界、獲取真實的反饋，並通過這些反饋自主迭代，而不是一味依賴人類數據。

強化學習之父 Richard Sutton 和 David Silver 最近合作撰寫的論文《The Era of Experience》裡面核心也是在講這件事。

曲凱： 最後我想問，我們今天聊的很多東西的基礎就是「未來 Agent 真的會起來」，那 Agent 到底什麼時候會起來？

雷磊： 與其思考 Agent 什麼時候會起來，我覺得更重要的是思考在 Agent 崛起的那一天，我們能夠提前為 Agent 做些什麼、提供什麼樣的價值。