我不给人做产品，给Agent做|42章经

2025年06月30日11:02:04 科技 1335

曲凯： Agent 今年这波热潮其实是 Manus 带起来的，到现在为止，各种 Agent 大家已经投得不少了。那下一个热点可能在哪里？

我们觉得可能是 Agent Infra。

正好雷磊现在做的 Grasp 就是一个给 Agent 用的浏览器。你是怎么想到要做Agent Infra 的？

雷磊： 首先，我相信未来 Agent 的数量会不断增加，至少会达到现在 SaaS 数量的几千倍。

而且 Agent 能直接交付结果，因此它其实就是一个数字员工，我们应该把它视为像人类一样的终端用户。但因为 Agent 与人类的形态截然不同，所以当下互联网的很多基础设施都是不适合 AI 使用的，都需要为 Agent 重构一遍。

那基于这两点，Agent Infra 就是一个非常大的市场机会。

曲凯： 那未来 Agent 和人类到底会怎么协作？你提到说 Agent 和人类完全不同，具体有哪些体现？

雷磊： 现阶段大家普遍认为 Agent 是为人类服务的，但在我看来，未来应该是人类为 Agent 服务，因为 Agent 拥有更高的带宽，能够接触到比人类更多的知识和信号。(当然，人类和 Agent 并不完全对立。)

在这个服务主体转移的过程中，人类和 AI 的行为模式确实存在区别。

第一个区别在于交互方式。

人类的交互主要依赖视觉，因此为人类设计的产品需要一个前端界面，而 Agent 则可以通过文本和多模态在后端实现交互。

第二，人类和 Agent 的学习方式也不同。

人类无法同时「做事情」和「学东西」，因为这两者涉及到大脑的不同区域。但 Agent 却可以通过强化学习，在执行任务的同时进行学习。因此，为 Agent 设计产品时，至关重要的是设计一套奖励机制。

举个例子，当你使用浏览器时，系统不会频繁弹出窗口来评价你的操作是否正确。但如果是为 Agent 设计的浏览器，就需要时时提供 +1 或 -1 的反馈，只有这样，Agent 才能不断提升操作能力。

第三个区别是单线程 VS 多线程。

人的工作模式是按照 workflow 逐一完成，而 AI 可以在多个节点同时跑很多任务。

在计算机领域，有一个类似的对比：人类的工作模式很像「贪婪算法」，总是关注局部最优，而 AI 的模式则很像「动态规划」，始终追求全局最优。

不过这也引发了一个问题：当 Agent 并发执行任务时，该怎么保持不同任务的状态？

对于人类来说，上一个任务的结束就是下一个任务的开始，因此天然不需要去保持状态。

然而，Agent 在一个节点上可能同时执行 100 个任务，这些任务的执行速度各异，有些快，有些慢，甚至有些可能需要人工干预，所以需要设计一种新的机制保证 Agent 能高效稳定地在不同任务间切换和协调。

第四个区别是责任界定的问题。

人可以为自己的行为负责，但谁来为 AI 的行为负责呢？这也就引申出一个问题，就是怎么划分 Agent 所处环境的安全边界。

比如你手里有一段代码，如果这段代码是你自己写的，你当然可以接受这段代码直接在你的电脑上运行，因为出了问题你可以负责。

但如果这段代码是 AI 生成的呢？如果运行之后，你的文件全丢了，谁来负责？

为了解决这个问题，AI 执行任务时最基本的要求就是要有一个「安全围栏」（类似于大家都在讲的沙盒），来把 AI 所产生的影响控制在一定范围内。

这个安全围栏并不是要一刀切地限制住 Agent 的能力，而是要动态判断哪些任务和信息可以交由 Agent 处理，而哪些不能。

一个典型的例子就是 E2B。

曲凯： 对，E2B 这个产品现在在美国很火，但我估计国内很多人可能还不太知道它。能不能给大家再介绍一下，E2B 到底是啥？

雷磊： 其实 E2B 的火爆，很大程度上是靠 Manus 带起来的。

简单来说，E2B 就是给代码运行提供了一个安全又快速的沙盒环境。

曲凯： 那如果未来 Agent 的运行环境都在云端，到时候是不是云厂商的股票能涨得更好？

雷磊： 单凭这点来说是的。因为云厂商的机会来自于大家对资源的需求，如果我们未来会消耗更多的资源、产生更多的数据，那云厂商就是会更值钱。

但很关键的一点是这些云厂商得顺应时代潮流，否则很可能会被赶超，以至于被历史淘汰。

曲凯： 所以你甚至会觉得 AI 时代有个新的云厂商的机会吗？

雷磊： 对，在我看来 AI 环境这件事就是一个 AWS 级别的机会。

曲凯： 但我听下来，E2B 本身好像也没做太多事情，那 E2B 和云厂商的关系未来会是怎样的？

雷磊： 云厂商更多扮演的是基础设施的角色，比如说我们构建一座房子，云厂商有点像提供水电资源的地产商，而 E2B 则是负责将这些资源交付给住户的装修商。底层肯定还是由云厂商提供最基础的算力，而中间这一层像 E2B 这样的 Infra，提供的就是能让 Agent 真正运行的环境。

曲凯： 这个例子很妙。但很多地产商后来都开始拼装修好的商品房了，那是不是未来一些云厂商也会自己做 Agent Infra 的这些事情？或者至少 E2B 是一个很好的被收购标的。

雷磊： 这是一个很有意思的问题。在什么情况下地产商会去卷商品房呢？

就是当市场容量不足，仅交付毛坯房的竞争力不够时。

但 AI 市场的增长空间很大，所以我觉得在这个阶段云厂商和 Agent Infra 公司应该合作，想办法把蛋糕做大，而不是过早地去考虑怎么分蛋糕。

包括 Agent Infra 公司之间也应该如此。因为这个市场足够大，所以能容纳很多家公司、去提供不同的解决方案。

举个例子。E2B 有一个竞对叫 ForeverVM。E2B 主打的是「安全」，ForeverVM 主打的则是「状态」，也就是确保 Agent 在执行多个任务时，即使反复横跳，也不会丢失之前的进度。

曲凯： 明白。其实最近美国那边给 Agent 做的产品有两个典型，一个是 E2B，另一个是 Browserbase。讲完 E2B，我们再讲讲 Browserbase 吧，正好你们现在在做的也是与 Browser Use 相关的事情。

雷磊： Browserbase 也算是现在的一个当红明星了，从融资额也能看出，它的估值在一年内涨到了 3 亿美金。

它做的本质就是给 AI 用的浏览器。但与传统浏览器的区别在于，首先它将浏览器云端化了，其次针对 AI 使用浏览器的场景进行了优化。

我当时在字节的时候，特别喜欢一鸣的一个说法，叫做「务实的浪漫」。意思是除了「仰望星空」地眺望未来，也要「脚踏实地」地发现并解决眼下一些具体的问题。

那眼下有什么问题呢？

数据表明，现在互联网上已经有 40% 的流量来自机器人。但机器和人使用浏览器的方式有很大差别，怎么能让这些机器人更高效地使用浏览器，就是一个值得重新设计的问题。

比如，AI 需要 RAG 功能，所以 Browserbase 就设计了类似的功能，可以帮助 AI 自动获取网站上的一些信息，作为上下文来辅助后续操作。

曲凯： 那「给 AI 用的浏览器」和「给人用的浏览器」具体有哪些区别？

雷磊： 首先，给 AI 用的浏览器一定是运行在云端的，因为 AI 不需要休息，可以持续工作。

其次，人类需要先看到浏览器页面上的信息，然后才能用鼠标操作，而 AI 完全不需要前端界面，它可以直接在后端运行。

第三，我们在给 AI 设计浏览器的时候会考虑怎么设计反馈循环，因为我们相信未来 AI 要能自主收集反馈、自主迭代。

第四点与安全相关。这里可以问大家一个问题：你愿意把账号密码交给大模型吗？

你大概率不愿意。

但你在使用 Agent 的时候，可能也不希望它跑了半天却没法完成任务，每次遇到登录问题时还要来烦你。

所以最佳情况是在确保密码不泄露的前提下，能让 Agent 有一定的自主性。

针对这个问题，我们开发了一个功能，就是当某个网站需要账号密码时，Agent 会自动判断情况，并以一种纯本地的方式填入你的账号密码，甚至是验证码。整个过程完全不需要人为干预，并且绝不会将你的任何信息传递给大模型。

第五点，就是在为 Agent 配置浏览器时，也需要考虑 Agent 多线程工作的连续性和成本。

因为大模型在操作浏览器时，往往涉及许多步骤，而且步骤之间可能存在间隔。比如，如果我们希望 Agent 在航司网站上购买一张机票，那么当 Agent 进入下单页面后，可能需要先去携程搜索比对各种机票信息，然后将这些信息带到另一个系统中进行推理。整个过程可能还需要人的介入，最终决定购买哪张机票后，再返回航司网站继续操作。

此时，我们肯定希望航司网站的页面仍然停留在下单页，而不是重新加载。但由于中间步骤太多、各步骤耗时也较长，可能过程中就会导致云端资源的浪费。

曲凯： 明白。那在 Browser Use 这个赛道里，Browserbase 已经做得挺不错了，为什么你们还要做？Grasp 和 Browserbase 有什么区别？

雷磊： 要做一个具备 Browser Use 功能的 Agent，技术架构可以分为三层。

最底层叫 Runtime，有点类似于云端的引擎。你可以将它理解为传统的浏览器内核，主要解决拉取网页信息、执行浏览器脚本、渲染图片等问题。

但随着 AI 的到来，中间新增了一个 Agentic 层。这一层负责控制 AI 与网页的交互，包括怎么从网页获取信息、怎么生成一些信息来影响网页，以及如何进行推理等等，最终再形成具体指令。

最上面一层是 Knowledge 层，也就是垂直领域的 knowhow。这一层是所有 Agent builder 需要重点关注的，因为它决定了你该怎么设计反馈机制，从而优化最终交付给终端用户的结果。

无论是 Browserbase，还是传统的 Playwright、Chromium，本质上都属于 Runtime 层。

而我们所做的是 Runtime 层 + Agentic 层。这两层一方面工程量非常大，另一方面有许多需要解决的通用问题。因此，如果我们将这些工程和问题都解决，就能够为开发者提供一个封装好的 Agentic Browser。开发者只需结合自身的行业认知，就可能构建出自己的 Manus 或者 Fellou。

曲凯： 假设今天 Google 想做一个 Browserbase，是不是可以很快就做出来？

雷磊： 确实，只做 Runtime 没有足够大的壁垒。

曲凯： 所以 Runtime 层和 Agentic 层必须一起做才行？

雷磊： 是的，否则很多你想实现的功能就是无法实现。

曲凯： 那么在 Agent Infra 中，除了像 E2B 这样的代码云环境和 Browserbase 这样的 Browser Use 产品，还有其他机会吗？

雷磊： Agent Infra 大体可以分为环境和工具两种。

环境最主要的就是 Coding 和 Browser。Coding 赋予了 Agent 执行一个逻辑的能力，而 Browser 则让 Agent 拥有了与网页信息交互的能力。

不过中间会有非常多的细分领域，比如 Browser 可以有不同的浏览方式、Coding 可以分解释性语言和编译性语言等等，而针对不同的痛点，自然会有不同的解决方案和公司出现。

此外可能还会有一些抽象的环境，比如运行数学公式的环境，以及与物理世界接触的环境，比如传感器、具身智能，包括像李飞飞团队关注的空间智能等。

对于工具来说，如果把 Agent 看作终端用户，那么人类软件史上曾经出现过的工具都有机会重写一遍，比如 Agent 要不要有自己的身份？需不需要自己的电话去接收短信？是不是得有支付能力？

这里也和大家分享一个思考框架，就是通过场景去找切入点。

举几个例子。

一个旅游 Agent，在规划行程和导览的场景里，常用的工具就包括 CRM 查询，网络搜索、购票支付以及身份认证等等，所以这些工具你都可以重做一遍。另外，这个 Agent 很可能会在浏览器环境里运行，然后通过接口或者网页背后的 HTML 来执行任务，所以你也可以给它做一个专门的浏览器。

以此类推，你也可以为一个解题 Agent 去做定理检索、绘图，以及 LaTeX 等工具，也可以为它去写一个新的公式执行器或者代码执行器。

如果未来硬件有了突破，对于一个类似 Jarvis 的 Agent 来说，它需要的则是能够帮助它与现实世界进行交互的工具，以及传感器之类的感知环境。

这些还只是为单个 Agent 开发产品时需要考虑的因素。随着未来 Multi Agent 的成熟，可能会有多个 Agent 一起协作和沟通，共同解决问题。到那时，我们还需要考虑怎么去管控这些 Agent、怎么促进它们之间的协作，以及如果某个 Agent 挂了该怎么应对等等。

曲凯： 我记得你之前提到过一句话，你说今天的 Browser Use 有点像 22 年的 AI Coding，能不能解释一下？

雷磊： 22 年的时候，大家对 AI Coding 还有很多怀疑，不确定它到底会发展成什么样子，但到了今天，基本上已经没有人质疑它了。

这是因为大模型是不是能稳定地解决某类问题有一个很简单的公式：

某问题的样本集 × 模型的成功率 = 该问题的成功数量。

如果某类问题的成功数量能够满足人类的需求，那它就会被人们认可、逐渐成为主流。

对于 AI Coding 来说，自从 22 年 GPT 3.5 推出后，它的成功数量就突破了一个关键阈值，从而消除了人们的疑虑。

回到今天的 Browser Use，其实它的样本数量比 Coding 还要大，只是目前模型的能力还不足，所以现在还有很多人认为 Browser Use 不够实用。

但随着大模型能力的不断突破，当 Browser Use 的成功数量能够满足人们的需求时，人们对 Browser Use 的态度就会像今天对 AI Coding 一样，而且这个过程会比 AI Coding 来得更快。

曲凯： 那 AI Coding 现在全球有几百家公司在做，也有很多估值很高的公司了，你觉得未来 Browser Use 也会是这样吗？

雷磊： 其实哪怕是 AI Coding，我觉得仍然处于市场早期。因为如果从商业层面来看，全球软件开发的总市值大概有 3 - 4 万亿美金。只要 AI 能够在其中提升 5% 的效率，那就是一个 1500 亿美金的市场。但是今天 AI Coding 可能也就是一个小 100 亿美金的市场，还有很大的增长空间。

Browser Use 也是同样的道理。假如我们通过互联网进行的销售、招聘、获客等活动，能够通过 AI 提升 5% 的效率，那就是一个非常有潜力的大市场。

曲凯： 那现在大家对于给 Agent 做产品这件事情，有什么很强的非共识吗？

雷磊： 大家对于「给 Agent 做的产品到底最关键的是什么」这一点看法不太一样。有人认为是上下文，有人认为是更好的数据，或者更强大的模型。

但在我看来，最关键的是怎么设计一个好的反馈循环，让 AI 能够自我迭代。

我觉得人类最大的一个偏见，就是我们非常相信人类的先验知识对大模型来说很重要，所以我们不停地把我们的知识灌输给大模型，觉得这样它会越来越聪明。

但有没有可能人类的知识对大模型来说其实毫无必要呢？

举个例子。DeepMind 团队做了一个解奥数题的产品，叫 AlphaProof。他们团队只设计了一些基本的奖励信号，做对了题目 Reward + 1，做错了 Reward - 1，然后就开始让 AlphaProof 自己做题。AlphaProof 不参考任何人类解题的思路，就是从 0 开始通过强化学习的方式自主探索、自主迭代。但靠着这种方式，它去年已经摘取了国际奥数大赛的银牌。

曲凯： 就像 AlphaZero 一样，对吧？最后大家发现人类的棋谱对它来说其实根本没有用。

雷磊： 对，所以我觉得未来最重要的范式转变，就是让 AI 通过 Coding 和 Browser 之类的环境，自己去体验世界、获取真实的反馈，并通过这些反馈自主迭代，而不是一味依赖人类数据。

强化学习之父 Richard Sutton 和 David Silver 最近合作撰写的论文《The Era of Experience》里面核心也是在讲这件事。

曲凯： 最后我想问，我们今天聊的很多东西的基础就是「未来 Agent 真的会起来」，那 Agent 到底什么时候会起来？

雷磊： 与其思考 Agent 什么时候会起来，我觉得更重要的是思考在 Agent 崛起的那一天，我们能够提前为 Agent 做些什么、提供什么样的价值。