2025 年 3 月全球 ai 重要趋势。
文丨贺乾明
2025 年 3 月的 ai 月报,我们开始尝试一种新形式:和知乎一起举办 “ai 脑暴” 线下活动,围绕每月一个热门 ai 主题,邀请相关学界研究者、业界从业者(研发或技术人员)、投资人等一起做闭门圆桌讨论。
3 月 30 日,第一期 ai 脑暴举行,主题是 agent,我们邀请 6 位嘉宾参加,他们来自高校、互联网公司和非营利 ai 研究机构。本期月报中,我们摘录了部分 ai 脑暴中的讨论。
本期月报,你会看到:
为什么开发 agent 简单,但做好很难
ai 脑暴活动中 “壳重要还是模型重要” 部分讨论要点
大模型应用成为互联网流量入口的可能和 openai 的平台设想
算力投资分歧引发英伟达股价持续震荡,黄仁勋讲了个推理故事
并购交易活跃,英伟达积极出手
31 家 ai 公司获得超 5000 万美元融资,垂直 ai 应用受青睐
“显微镜” 追踪大模型内部决策路径的六个案例
以下是我们第 5 期 ai 月报,欢迎大家在留言区补充我们没有提到的重要趋势。
开发 agent 简单,让它好用难
3 月初,通用 agent 产品 manus 上线第二天,就被复刻出两个开源版本——openmanus、owl。openmanus 甚至只用 4 个人,花 3 个小时。
这种 “速成” 似乎暗示:做 agent 没那么难。但从实际体验和系统复杂度来看,让 agent “真正好用” 仍存在挑战。
大模型公司 anthropic 与数十个团队合作开发 agent 后,把其分成两类 [1]:
workflows,通过预先定义好的代码路径,协调大模型和各种工具的系统。
agents,是大模型自主决定处理过程和工具使用方式的系统,能独立完成任务。
agent 的开发看起来变得容易,是因为底层模型、框架、工具生态正在成熟。openai、anthropic 等公司提供了模型 api,调用浏览器、文件、搜索等组件已经有开源标准。anthropic 推出的 model context protocol(mcp)正在被更多公司接纳,规范了 agent 如何与外部工具对接,openai 也已加入。
但无论是 manus 和它的各种开源变体,还是 openai 开发的 deep research 等 agent,问题仍层出不穷:
大模型自身局限:幻觉严重、逻辑跳跃、长文本处理能力不足、模型训练数据不够新鲜等,仍需要 rag(检索增强生成)等技术兜底,会引入更多误差。
系统设计难:难以精确引导模型行为,执行复杂任务容易陷入死循环;任务链越长,误差累积越多;公开信息有限,而且主要是为人服务,而不是为大模型服务。
anthropic 总结过几点工具层面的改进建议 [1]:
站在模型的角度思考,一个好的工具定义通常包括使用示例、边界情况、输入格式要求等,与其他工具有明显区分。
持续测试模型如何使用工具,观察模型犯的错误,然后不断迭代改进。
设定 “防呆机制”(poka-yoke),调整参数设置,降低模型出错的概率。
在大模型创业公司 pleias 训练大模型的亚历山大·多利亚(alexander doria)认为 “模型就是产品”[2]:
openai 的 deep research 并没有在 o3 模型上做产品封装,而是用强化学习的方式,在 o3 的基础训练一个新模型,让它具备搜索的能力,而不是调用外部的工具、增加提示词或者编排任务。
目前大多数 agent 产品都是工作流(workflows)产品,它在垂直场景有价值,但要实现重大突破,必须重新设计模型。仅专注应用开发,就像是 “用上一场战争的将军,来打下一场战争”。
在 ai 脑暴活动上,我们讨论了 “对 agent 来说,壳重要还是模型重要”,部分要点如下:
1. anthropic 的 cpo 迈克·克里格 (mike krieger) 提到的 “一方产品”“三方产品” 的观点,用来理解这个问题很有意思。cursor 是一个成功的三方,它没有训练自己的大模型,但交互设计做得很好,构造了一个沉浸式的 agent,满足了 agent 与人和(生产)环境统一对齐的情况,所以三方产品也能做得很好。
2. 对于 agent 来说,壳至少是一个起点,你能先把这个东西做出来。如果你这个壳足够有前瞻性的话,你可以等着模型变强,然后这个东西就会变得更好。
3. 像 openhands 刚开始就是搭一个壳,在 roadmap 上面写要训模型,但没有优先推进。接入一个商用模型 api,好像并不影响用户用你的这套东西。他们认为,先把这个效果做好,大家能用起来,可能就足够了。重点优化这一层壳,也能看到 claude 3.5 到 3.7 陆续发布,它的能力变得越来越强。
4. 所谓套盒,其实是在改模型的输入和输出。它们决定给基础模型提供哪些内容,有时它们会对基础模型的输出进行特定的格式化。两者实际上是正交的,当一方变得足够强大时,另一方的强弱对整体效果的影响可能不再显著。
5. anthropic 推出的 mcp(model context protocol)也在提高 agent 产品的价值。他们写了一层协议,以某种方式将所有现有的软件转化为语言模型调用的工具。它是一个开放的生态系统,任何公司都可以做贡献,希望被大型语言模型调用的软件,可以自行接入 mcp。现有软件都可以通过 mcp 重新封装一遍。
6. 大模型预训练、后训练和 agent 架构优化是整体工程,层层递进,能力相互关联。对 deepseek 及其他推理模型案例研究发现,推理模型能力离不开基础模型的持续迭代,本轮 agent 应用的发展也源自 llm-based 对 rl-based 的架构迭代。
7. 基础模型迭代仍是 agent 性能提升的重要影响因素,基础模型迭代的速度持续放缓,一方面来自于预训练 scaling laws 边际效应递减。另一方面,更大规模的资源投入门槛让下一代模型的 “拥有权” 收敛到头部厂商中。
8. 大模型的发展,会推动垂直头部应用厂商升级,而非颠覆垂直应用的市场格局;在超级应用的市场争夺中,参与者需要强大生态渠道构建能力,快速整合本地生活、地图、支付等一系列通用场景建设生态,推动大模型从简单的问答与灵感提示,向日常生活中进一步渗透,改变人机交互方式。
9. 与互联网与移动互联网时期一样,大模型推动的智能应用时代,正在从通用技术的发展向应用能力提升过渡,基础模型的迭代是 agent 应用的基石,而 agent 应用的壁垒除了必要的工程能力外,会转向用户、场景和行业知识的理解与积累。
大模型成为流量入口会怎样
3 月,openai ceo 山姆·阿尔特曼(sam altman)接受采访时被问 [3]:“五年后,拥有 10 亿日活、无需获客的网站和最先进的模型,什么更有价值?”
他沉吟 2 秒,选择 “10 亿日活用户的网站”。阿尔特曼设想了一个 openai 成为互联网世界入口的未来:用户用 openai 账户,能带着使用额度、定制模型等,自由使用任何集成了 openai 模型 api 的第三方服务。
他说,“这是真正成为一个伟大平台的关键部分。”
openai 的这一平台愿景,已经在其 1 月发布的 agent 产品 operator 中初现端倪。operator 可以搜索网页为用户规划旅行方案、写报告、提供购物建议,与外卖平台 doordash、网约车平台 uber、购物网站 ebay 等服务打通。
operator 还没有带来太大冲击,但大模型应用成为流量入口的趋势日益明显。adobe analytics 分析了美国电商零售网站超万亿次访问后发现 [4]:
2024 年 9 月以来,大模型应用带来的流量每两个月翻一番;去年末两个月,这类流量同比增长 1200%。
与传统流量来源相比,从大模型应用引导的流量在网站上停留的时间增长 8%,页面浏览量增加 12%,跳出率低 23%,但是转化率低 9%,不过也在提升。
adobe 还调研 5000 名美国消费者获知:近四成人正在使用大模型辅助购物,过半人计划今年这么做。
许多电商或本地生活应用的核心收入都是站内的推荐广告,比如亚马逊、阿里、京东、拼多多、美团等。如果访问这些网站的是 ai,而不是人,这些广告系统还能起效吗?
今年 2 月的财报会上,亚马逊 ceo 安迪·贾西(andy jassy)被问及 “agent 如何影响公司电商业务”。他给出一个模棱两可的答案:“大多数零售商都会有某种与 agent 互动的条款,我们也不会有什么不同。”
沃尔玛美国业务的首席技术官哈里·瓦苏德夫(hari vasudev)提出了一个应对策略:“开发自己的 agent 与其他的 agent 互动,推荐产品或提供更多商品信息。”
ai 脑暴活动中,一位 ai 战略研究人士认为,就算是流量入口发生变化,现有的大厂和在特定场景深耕的公司依然会有优势:
随着开源模型与闭源模型的性能持续逼近,应用厂商可以通过较低成本获得模型能力,基于行业数据有监督微调(sft)一个业务可用的行业模型和 agent;过去有用户、数据和 it 能力积累的公司,在这场竞争中更具竞争优势。
算力投资分歧,英伟达的推理故事
3 月,算力投资的分歧持续,英伟达股价持续波动:月初 10 天下降 13%,随后反弹,然后又跌了下来。
这一波动背后是两个未达成共识的问题:算力消耗从训练大模型转向推理,英伟达的 gpu 还是唯一选择吗?当前算力投资是否饱和?
过去这个月,算力可能饱和甚至过剩的迹象增多:
参数更小的模型性能提升。google 开源的 270 亿参数模型 gemma 3 模型,在 chatbot arena 上得分超过老版 deepseek-v3(参数 6710 亿,每次回答问题激活 370 亿参数);阿里开源 320 亿参数推理模型 qwq,得分几乎追上 r1 。
据媒体报道,因为 deepseek、阿里、google 等公司开源算力消耗更少但性能不差的模型,许多美国公司都削减了 ai 支出。
aws 以英伟达 h100 芯片 25% 的价格向客户销售自研 ai 芯片 trainium 的相同算力;google 找联发科生产自研 ai 芯片,要进一步压低 ai 芯片成本。
微软 ceo 萨提亚·纳德拉之后,阿里董事局主席蔡崇信也警告,美国一些数据中心公司冒险建设新设施,称 “开始看到一些泡沫”。
但一直不愿与英伟达合作的苹果开始采购英伟达芯片,又给市场注入信心。3 月的 gtc 大会上,英伟达 ceo 黄仁勋讲了关于推理的新故事:
openai 发布 o1 这样的推理模型后,ai 算力的需求超过去年英伟达预期需求的 100 倍。能够推理的 ai,将问题一步步分解,可能以几种不同的方式接近并选择最佳答案,生成的 token 数量轻松达到百倍以上。
数据中心可用的电力资源有限。相同功耗,英伟达的 b 系列 gpu,性能比 h 系列提升 25 倍。2026 年将推出的 vera rubin 架构芯片,会在 b 系列基础上再次大幅提升——消耗相同的电,可以生成更多 token。
推理模型需要更高的吞吐效率,才能保证用户体验。英伟达开发 dynamo 软件,能动态调整 gpu 处理 token 的情况。推理模型解决任务时需要大量输入信息,模型处理提示词和大量原始信息的阶段(prefill,预填充)任务重,它可以把更多算力调配过来,保证用户体验和 gpu 的使用效率。
英伟达展示 gpu 优势。纵轴是算力服务器处理 token 的规模,横轴是算力服务器返回 token 的速度。它们构成 token 的吞吐量。token 吞吐量越高,回报就越高。
“当 b 系列 gpu 开始大量出货时,你甚至无法把 h 系列免费送出去。” 黄仁勋说。他经常用 “买得越多,省得越多” 推销英伟达先进 gpu,现在变成了 “买得越多,赚得越多”。
并非所有任务都需要推理模型解决,且更小的推理模型如 o3 mini、qwq-32b 同样能实现良好效果。整体算下来,推理模型确实增加 token 消耗,具体是否会到百倍以上仍有待验证。
ai 脑爆活动上,一位专注 ai 推理的研究者说:
当前看上去消耗大量算力的 agent 应用,还有很多算力优化空间。agent 浏览网页获取信息的时候,可能会抓取大量无用的信息作为输入,比如给网页截屏提取信息,可能与 99% 的像素是无用的,导致算力成本大幅增加。
投融资风向:并购交易变多,获得大额融资的 ai 公司聚焦垂直领域
并购活跃,头部公司扩展业务边界
3 月宣布的大额并购交易超过前三月总和,6 起金额超过 1 亿美元的交易公开,另有多起仍在谈判中。
ai 行业正在从 “单一的技术或产品竞争” 向 “生态系统整合” 转变,头部公司积极扩展业务边界,挖掘生态护城河:
英伟达 3.2 亿美元收购合成数据公司 gretel、正在洽谈数亿美元收购阿里前副总裁贾扬清创办的 ai 推理服务公司 lepton ai,从算力加速向推理、数据层拓展。
马斯克旗下 xai 用股权并购 x(twitter),整合数据、模型、算力、分发渠道和人才。交易中,xai 的估值是 800 亿美元,x 的估值 330 亿美元。
google 以 320 亿美元现金收购网络安全创业公司 wiz,servicenow 斥资 28.5 亿美元收购 ai 创业公司 moveworks,uipath 收购开发定价、库存管理等 ai 工具 的 peak 等,进一步扩张企业服务生态。
同时,英伟达投资支持的 gpu 算力租赁创业公司 coreweave 上市,筹集 15 亿美元,此前它计划筹集 40 亿美元。
拿到大额融资的公司变多,聚焦垂直领域
3 月,融资超过 5000 万美元的 ai 公司达 31 家,比上月增加 8 家,投资风向相对稳定。
基础模型方向,头部公司融资惊人:openai 又融资 400 亿美元,累计融资额达到 586 亿美元,最新估值超过 3000 亿美元;anthropic 又融资 35 亿美元,累计融资额达到 180 亿美元,估值达到 615 亿美元。
国内,智谱先后宣布拿到杭州、珠海、成都等三地国资的投资,总额达 18 亿元,累计融资超百亿人民币,完成公司股份制改革,为上市铺路。
基础设施方向,gpu 算力租赁服务的公司融资潮告一段落,研发 ai 芯片的以色列公司 retym 和为大公司提供网络解决方案的 nexthop ai 拿到大额融资。
为 openai、google 等公司提供编程数据的创业公司 turing 拿到 1.11 亿美元融资,估值 22 亿美元,其年化收入达到 1.67 亿美元,已经盈利,显示数据标注服务的商业模式正在成熟。
scale ai 正在推动估值 250 亿美元的老股交易,相比去年 5 月估值提升 80%。scale ai 正在拓展业务范围,为人形机器人公司提供数据采集服务。
人形机器人创业公司迎来融资高潮,单月出现 7 笔大额融资,创近年新高:
国内,智元机器人、它石智能、千寻智能、维他动力等项目完成亿元级人民币或美元融资,估值最高的智元机器人已经达到 150 亿元。
海外,agility robotics 筹集 4 亿美元,dexterity 融资 9500 万美元,apptronik 上个月融资 3.5 亿美元后再次融资 5000 万美元;软银则领投 terabase energy 的 1.3 亿美元融资,该公司用机器人建设太阳能发电厂。
应用方向,大额融资主要流向用大模型技术改造垂直领域的创业公司,分布在编程、医疗健康、企业数据服务、金融防诈、物流运输、药物发现等领域,至少有 18 家。
这些公司多数成立在 chatgpt 发布之前,已在各自领域中积累稳定客户和数据资源。它们不是给大模型做 “壳”,而是想把大模型与垂直场景连接起来,用 ai 改造原本的流程,挖掘新的增长空间。
许多投资人把这个方向当作创业公司的机会——这些领域需要长期、深入的积累才能有竞争力,潜在收入规模尚未大到吸引巨头入场。多位硅谷的投资人告诉媒体,他们现在被覆盖全行业的 ai 应用创业计划书淹没。
显微镜下的大模型思考轨迹
大模型输出结果看似合理,但内部决策过程不透明,是一个黑盒子。3 月,anthropic 发布两篇论文,尝试用 “ai 显微镜” 技术追踪模型内部运作机制,研究自研的大模型 claude 如何识别指令、组织语言、执行推理 [6]。
大模型如何掌握数十种语言?
claude 具备多语言能力,并不是靠 “法语 claude”“中文 claude” 同时上线,而是依赖一个共享的跨语言抽象机制。研究显示,在不同语言中提问 “小的反义词” 时,claude 激活的是相同的 “小” 与 “相反” 概念,最终生成 “大的” 语义,再翻译成原语言输出。随着模型规模扩大,这种语言间的共享特征也显著增强。这表明模型具备跨语言迁移能力,推理和理解能力可在多领域中应用。
大模型预测下一个词输出,它怎么押韵?
比如下面这两句英文诗:
he saw a carrot and had to grab it
his hunger was like a starving rabbit
为了写出第二行,大模型必须要满足两个条件:与 “grab it” 押韵、逻辑通顺(为什么要抓胡萝卜)。按照通常的大模型预测下一个词的理解,大模型一边写词一边思考,直到末尾才会选了一个押韵的词。
claude 在写诗时并非逐字生成到末尾才凑韵,而是提前规划。例如在写与 “grab it” 押韵的第二句前,它会预先检索相关话题词如 “rabbit”,再围绕这个词遣词造句。如果修改其内部状态中表示 “rabbit” 的部分,发现 claude 会改写成以 “habit” 结尾的句子,仍然通顺押韵;若注入 “green” 概念,结尾则变为 “green”,不押韵但合理。这表明,大模型具备语言规划能力和灵活性,能够根据目标调整生成策略。
大模型不是计算器,如何心算数学题?
claude 不是专门为计算设计的,训练目标只是预测下一个词,但它能在不一步步书写计算过程的情况下,正确计算如 36+59 的结果。研究发现,claude 并非靠死记硬背或模拟标准算法,而是用并行路径完成计算:一条估算总和,另一条精确确定末位数字,最终合成答案。claude 并不 “自知” 这些策略,它解释运算过程时仍引用人类常规算法,表明实际计算与解释机制是分离的。
大模型的思维链看上去很有逻辑,可靠吗?
claude 3.7 sonnet 等推理模型能进行较长的 “思维过程” 再输出答案,通常能提升准确性,但有时也会伪造看似合理的推理步骤。比如计算 0.64 的平方根时,claude 激活了与中间计算步骤对应的特征;但在处理难题,如大型余弦函数时,有时会 “胡诌” 答案,甚至反向写一个合理的思维链。
明明训练大模型不要乱说,为什么它还会捏造事实?
大语言模型天生会有 “幻觉”,即使不知道答案也必须输出下一个词。claude 训练中,学会在不确定准确答案时默认拒答,其内部存在一个 “拒答” 回路一直激活,除非识别到熟悉信息,如 “michael jordan”,此时 “已知实体” 特征会抑制该回路,模型才会作答。但大模型识别出是一个人名的时候,如 “michael batkin” 却不了解相关信息,就可能误激活 “已知” 特征,导致拒答机制失效,从而捏造看似合理却完全虚构的答案。
大模型的安全护栏为什么会失效?
大模型一旦开始处理句子,就倾向完成语义合理、语法正确的表达,即使这会输出有害内容。一个案例:模型被引导拼出 “bomb”(通过 “babies outlive mustard block” 的首字母),从而生成炸弹制作说明。claude 下意识地拼出 “bomb” 后继续生成内容,直到完成一个完整句子后,才 “意识” 到问题,切换为拒绝响应。
anthropic 称,当前的研究方法还有局限:只是处理几句简短的提示词,花数个小时也只能观察到大模型计算过程的一小部分,还不一定真实反映模型在做什么,如果想要分析模型处理长达成千上万个词的思维过程,不仅需要改进方法,可能还要用 ai 帮忙理解 ai。
欢迎大家到知乎搜“晚点”,阅读文章参与相关讨论。
[1] anthropic 的 agent 开发经验
https://www.anthropic.com/engineering/building-effective-agents
[2] 亚历山大·多利亚 “模型就是产品” 博客文章
https://vintagedata.org/blog/posts/model-is-the-product
[3] 阿尔特曼接受本·汤普森访谈
https://stratechery.com/2025/an-interview-with-openai-ceo-sam-altman-about-building-a-consumer-tech-company/
[4] adobe analytics 的流量分析报告
https://searchengineland.com/generative-ai-surging-online-shopping-report-453312
[5] 黄仁勋在 gtc 上的发言
https://www.nvidia.com/gtc/keynote/
[6] anthropic 追踪大模型内部思考过程的研究
https://www.anthropic.com/research/tracing-thoughts-language-model
题图来源:ai 生成。