開發好用的 Agent 難；如果大模型成為流量入口；英偉達的推理故事

2025年04月03日15:20:31 科技 7906

2025 年 3 月全球 ai 重要趨勢。

文丨賀乾明

2025 年 3 月的 ai 月報，我們開始嘗試一種新形式：和知乎一起舉辦「ai 腦暴」線下活動，圍繞每月一個熱門 ai 主題，邀請相關學界研究者、業界從業者（研發或技術人員）、投資人等一起做閉門圓桌討論。

3 月 30 日，第一期 ai 腦暴舉行，主題是 agent，我們邀請 6 位嘉賓參加，他們來自高校、互聯網公司和非營利 ai 研究機構。本期月報中，我們摘錄了部分 ai 腦暴中的討論。

本期月報，你會看到：
為什麼開發 agent 簡單，但做好很難
ai 腦暴活動中「殼重要還是模型重要」部分討論要點
大模型應用成為互聯網流量入口的可能和 openai 的平台設想
算力投資分歧引發英偉達股價持續震蕩，黃仁勛講了個推理故事
併購交易活躍，英偉達積極出手
31 家 ai 公司獲得超 5000 萬美元融資，垂直 ai 應用受青睞
「顯微鏡」追蹤大模型內部決策路徑的六個案例

以下是我們第 5 期 ai 月報，歡迎大家在留言區補充我們沒有提到的重要趨勢。

開發 agent 簡單，讓它好用難

3 月初，通用 agent 產品 manus 上線第二天，就被複刻出兩個開源版本——openmanus、owl。openmanus 甚至只用 4 個人，花 3 個小時。

這種「速成」似乎暗示：做 agent 沒那麼難。但從實際體驗和系統複雜度來看，讓 agent 「真正好用」仍存在挑戰。

大模型公司 anthropic 與數十個團隊合作開發 agent 後，把其分成兩類 [1]：

workflows，通過預先定義好的代碼路徑，協調大模型和各種工具的系統。
agents，是大模型自主決定處理過程和工具使用方式的系統，能獨立完成任務。

agent 的開發看起來變得容易，是因為底層模型、框架、工具生態正在成熟。openai、anthropic 等公司提供了模型 api，調用瀏覽器、文件、搜索等組件已經有開源標準。anthropic 推出的 model context protocol（mcp）正在被更多公司接納，規範了 agent 如何與外部工具對接，openai 也已加入。

但無論是 manus 和它的各種開源變體，還是 openai 開發的 deep research 等 agent，問題仍層出不窮：

大模型自身局限：幻覺嚴重、邏輯跳躍、長文本處理能力不足、模型訓練數據不夠新鮮等，仍需要 rag（檢索增強生成）等技術兜底，會引入更多誤差。
系統設計難：難以精確引導模型行為，執行複雜任務容易陷入死循環；任務鏈越長，誤差累積越多；公開信息有限，而且主要是為人服務，而不是為大模型服務。

anthropic 總結過幾點工具層面的改進建議 [1]：

站在模型的角度思考，一個好的工具定義通常包括使用示例、邊界情況、輸入格式要求等，與其他工具有明顯區分。
持續測試模型如何使用工具，觀察模型犯的錯誤，然後不斷迭代改進。
設定「防呆機制」(poka-yoke)，調整參數設置，降低模型出錯的概率。

在大模型創業公司 pleias 訓練大模型的亞歷山大·多利亞（alexander doria）認為「模型就是產品」[2]：

openai 的 deep research 並沒有在 o3 模型上做產品封裝，而是用強化學習的方式，在 o3 的基礎訓練一個新模型，讓它具備搜索的能力，而不是調用外部的工具、增加提示詞或者編排任務。
目前大多數 agent 產品都是工作流（workflows）產品，它在垂直場景有價值，但要實現重大突破，必須重新設計模型。僅專註應用開發，就像是「用上一場戰爭的將軍，來打下一場戰爭」。

在 ai 腦暴活動上，我們討論了「對 agent 來說，殼重要還是模型重要」，部分要點如下：

1. anthropic 的 cpo 邁克·克里格 (mike krieger) 提到的「一方產品」「三方產品」的觀點，用來理解這個問題很有意思。cursor 是一個成功的三方，它沒有訓練自己的大模型，但交互設計做得很好，構造了一個沉浸式的 agent，滿足了 agent 與人和（生產）環境統一對齊的情況，所以三方產品也能做得很好。
2. 對於 agent 來說，殼至少是一個起點，你能先把這個東西做出來。如果你這個殼足夠有前瞻性的話，你可以等著模型變強，然後這個東西就會變得更好。
3. 像 openhands 剛開始就是搭一個殼，在 roadmap 上面寫要訓模型，但沒有優先推進。接入一個商用模型 api，好像並不影響用戶用你的這套東西。他們認為，先把這個效果做好，大家能用起來，可能就足夠了。重點優化這一層殼，也能看到 claude 3.5 到 3.7 陸續發布，它的能力變得越來越強。
4. 所謂套盒，其實是在改模型的輸入和輸出。它們決定給基礎模型提供哪些內容，有時它們會對基礎模型的輸出進行特定的格式化。兩者實際上是正交的，當一方變得足夠強大時，另一方的強弱對整體效果的影響可能不再顯著。
5. anthropic 推出的 mcp（model context protocol）也在提高 agent 產品的價值。他們寫了一層協議，以某種方式將所有現有的軟體轉化為語言模型調用的工具。它是一個開放的生態系統，任何公司都可以做貢獻，希望被大型語言模型調用的軟體，可以自行接入 mcp。現有軟體都可以通過 mcp 重新封裝一遍。
6. 大模型預訓練、後訓練和 agent 架構優化是整體工程，層層遞進，能力相互關聯。對 deepseek 及其他推理模型案例研究發現，推理模型能力離不開基礎模型的持續迭代，本輪 agent 應用的發展也源自 llm-based 對 rl-based 的架構迭代。
7. 基礎模型迭代仍是 agent 性能提升的重要影響因素，基礎模型迭代的速度持續放緩，一方面來自於預訓練 scaling laws 邊際效應遞減。另一方面，更大規模的資源投入門檻讓下一代模型的「擁有權」收斂到頭部廠商中。
8. 大模型的發展，會推動垂直頭部應用廠商升級，而非顛覆垂直應用的市場格局；在超級應用的市場爭奪中，參與者需要強大生態渠道構建能力，快速整合本地生活、地圖、支付等一系列通用場景建設生態，推動大模型從簡單的問答與靈感提示，向日常生活中進一步滲透，改變人機交互方式。
9. 與互聯網與移動互聯網時期一樣，大模型推動的智能應用時代，正在從通用技術的發展嚮應用能力提升過渡，基礎模型的迭代是 agent 應用的基石，而 agent 應用的壁壘除了必要的工程能力外，會轉向用戶、場景和行業知識的理解與積累。

大模型成為流量入口會怎樣

3 月，openai ceo 山姆·阿爾特曼（sam altman）接受採訪時被問 [3]：「五年後，擁有 10 億日活、無需獲客的網站和最先進的模型，什麼更有價值？」

他沉吟 2 秒，選擇「10 億日活用戶的網站」。阿爾特曼設想了一個 openai 成為互聯網世界入口的未來：用戶用 openai 賬戶，能帶著使用額度、定製模型等，自由使用任何集成了 openai 模型 api 的第三方服務。

他說，「這是真正成為一個偉大平台的關鍵部分。」

openai 的這一平台願景，已經在其 1 月發布的 agent 產品 operator 中初現端倪。operator 可以搜索網頁為用戶規劃旅行方案、寫報告、提供購物建議，與外賣平台 doordash、網約車平台 uber、購物網站 ebay 等服務打通。

operator 還沒有帶來太大衝擊，但大模型應用成為流量入口的趨勢日益明顯。adobe analytics 分析了美國電商零售網站超萬億次訪問後發現 [4]：

2024 年 9 月以來，大模型應用帶來的流量每兩個月翻一番；去年末兩個月，這類流量同比增長 1200%。
與傳統流量來源相比，從大模型應用引導的流量在網站上停留的時間增長 8%，頁面瀏覽量增加 12%，跳出率低 23%，但是轉化率低 9%，不過也在提升。

adobe 還調研 5000 名美國消費者獲知：近四成人正在使用大模型輔助購物，過半人計劃今年這麼做。

許多電商或本地生活應用的核心收入都是站內的推薦廣告，比如亞馬遜、阿里、京東、拼多多、美團等。如果訪問這些網站的是 ai，而不是人，這些廣告系統還能起效嗎？

今年 2 月的財報會上，亞馬遜 ceo 安迪·賈西（andy jassy）被問及「agent 如何影響公司電商業務」。他給出一個模稜兩可的答案：「大多數零售商都會有某種與 agent 互動的條款，我們也不會有什麼不同。」

沃爾瑪美國業務的首席技術官哈里·瓦蘇德夫（hari vasudev）提出了一個應對策略：「開發自己的 agent 與其他的 agent 互動，推薦產品或提供更多商品信息。」

ai 腦暴活動中，一位 ai 戰略研究人士認為，就算是流量入口發生變化，現有的大廠和在特定場景深耕的公司依然會有優勢：

隨著開源模型與閉源模型的性能持續逼近，應用廠商可以通過較低成本獲得模型能力，基於行業數據有監督微調（sft）一個業務可用的行業模型和 agent；過去有用戶、數據和 it 能力積累的公司，在這場競爭中更具競爭優勢。

算力投資分歧，英偉達的推理故事

3 月，算力投資的分歧持續，英偉達股價持續波動：月初 10 天下降 13%，隨後反彈，然後又跌了下來。

這一波動背後是兩個未達成共識的問題：算力消耗從訓練大模型轉向推理，英偉達的 gpu 還是唯一選擇嗎？當前算力投資是否飽和？

過去這個月，算力可能飽和甚至過剩的跡象增多：

參數更小的模型性能提升。google 開源的 270 億參數模型 gemma 3 模型，在 chatbot arena 上得分超過老版 deepseek-v3（參數 6710 億，每次回答問題激活 370 億參數）；阿里開源 320 億參數推理模型 qwq，得分幾乎追上 r1 。

據媒體報道，因為 deepseek、阿里、google 等公司開源算力消耗更少但性能不差的模型，許多美國公司都削減了 ai 支出。
aws 以英偉達 h100 晶元 25% 的價格向客戶銷售自研 ai 晶元 trainium 的相同算力；google 找聯發科生產自研 ai 晶元，要進一步壓低 ai 晶元成本。
微軟 ceo 薩提亞·納德拉之後，阿里董事局主席蔡崇信也警告，美國一些數據中心公司冒險建設新設施，稱「開始看到一些泡沫」。

但一直不願與英偉達合作的蘋果開始採購英偉達晶元，又給市場注入信心。3 月的 gtc 大會上，英偉達 ceo 黃仁勛講了關於推理的新故事：

openai 發布 o1 這樣的推理模型後，ai 算力的需求超過去年英偉達預期需求的 100 倍。能夠推理的 ai，將問題一步步分解，可能以幾種不同的方式接近並選擇最佳答案，生成的 token 數量輕鬆達到百倍以上。
數據中心可用的電力資源有限。相同功耗，英偉達的 b 系列 gpu，性能比 h 系列提升 25 倍。2026 年將推出的 vera rubin 架構晶元，會在 b 系列基礎上再次大幅提升——消耗相同的電，可以生成更多 token。
推理模型需要更高的吞吐效率，才能保證用戶體驗。英偉達開發 dynamo 軟體，能動態調整 gpu 處理 token 的情況。推理模型解決任務時需要大量輸入信息，模型處理提示詞和大量原始信息的階段（prefill，預填充）任務重，它可以把更多算力調配過來，保證用戶體驗和 gpu 的使用效率。

英偉達展示 gpu 優勢。縱軸是算力伺服器處理 token 的規模，橫軸是算力伺服器返回 token 的速度。它們構成 token 的吞吐量。token 吞吐量越高，回報就越高。

「當 b 系列 gpu 開始大量出貨時，你甚至無法把 h 系列免費送出去。」黃仁勛說。他經常用「買得越多，省得越多」推銷英偉達先進 gpu，現在變成了「買得越多，賺得越多」。

並非所有任務都需要推理模型解決，且更小的推理模型如 o3 mini、qwq-32b 同樣能實現良好效果。整體算下來，推理模型確實增加 token 消耗，具體是否會到百倍以上仍有待驗證。

ai 腦爆活動上，一位專註 ai 推理的研究者說：

當前看上去消耗大量算力的 agent 應用，還有很多算力優化空間。agent 瀏覽網頁獲取信息的時候，可能會抓取大量無用的信息作為輸入，比如給網頁截屏提取信息，可能與 99% 的像素是無用的，導致算力成本大幅增加。

投融資風向：併購交易變多，獲得大額融資的 ai 公司聚焦垂直領域

併購活躍，頭部公司擴展業務邊界

3 月宣布的大額併購交易超過前三月總和，6 起金額超過 1 億美元的交易公開，另有多起仍在談判中。

ai 行業正在從「單一的技術或產品競爭」向「生態系統整合」轉變，頭部公司積極擴展業務邊界，挖掘生態護城河：

英偉達 3.2 億美元收購合成數據公司 gretel、正在洽談數億美元收購阿里前副總裁賈揚清創辦的 ai 推理服務公司 lepton ai，從算力加速向推理、數據層拓展。
馬斯克旗下 xai 用股權併購 x（twitter），整合數據、模型、算力、分發渠道和人才。交易中，xai 的估值是 800 億美元，x 的估值 330 億美元。
google 以 320 億美元現金收購網路安全創業公司 wiz，servicenow 斥資 28.5 億美元收購 ai 創業公司 moveworks，uipath 收購開發定價、庫存管理等 ai 工具的 peak 等，進一步擴張企業服務生態。

同時，英偉達投資支持的 gpu 算力租賃創業公司 coreweave 上市，籌集 15 億美元，此前它計劃籌集 40 億美元。

拿到大額融資的公司變多，聚焦垂直領域

3 月，融資超過 5000 萬美元的 ai 公司達 31 家，比上月增加 8 家，投資風向相對穩定。

基礎模型方向，頭部公司融資驚人：openai 又融資 400 億美元，累計融資額達到 586 億美元，最新估值超過 3000 億美元；anthropic 又融資 35 億美元，累計融資額達到 180 億美元，估值達到 615 億美元。

國內，智譜先後宣布拿到杭州、珠海、成都等三地國資的投資，總額達 18 億元，累計融資超百億人民幣，完成公司股份制改革，為上市鋪路。

基礎設施方向，gpu 算力租賃服務的公司融資潮告一段落，研發 ai 晶元的以色列公司 retym 和為大公司提供網路解決方案的 nexthop ai 拿到大額融資。

為 openai、google 等公司提供編程數據的創業公司 turing 拿到 1.11 億美元融資，估值 22 億美元，其年化收入達到 1.67 億美元，已經盈利，顯示數據標註服務的商業模式正在成熟。

scale ai 正在推動估值 250 億美元的老股交易，相比去年 5 月估值提升 80%。scale ai 正在拓展業務範圍，為人形機器人公司提供數據採集服務。

人形機器人創業公司迎來融資高潮，單月出現 7 筆大額融資，創近年新高：

國內，智元機器人、它石智能、千尋智能、維他動力等項目完成億元級人民幣或美元融資，估值最高的智元機器人已經達到 150 億元。
海外，agility robotics 籌集 4 億美元，dexterity 融資 9500 萬美元，apptronik 上個月融資 3.5 億美元後再次融資 5000 萬美元；軟銀則領投 terabase energy 的 1.3 億美元融資，該公司用機器人建設太陽能發電廠。

應用方向，大額融資主要流向用大模型技術改造垂直領域的創業公司，分布在編程、醫療健康、企業數據服務、金融防詐、物流運輸、藥物發現等領域，至少有 18 家。

這些公司多數成立在 chatgpt 發布之前，已在各自領域中積累穩定客戶和數據資源。它們不是給大模型做「殼」，而是想把大模型與垂直場景連接起來，用 ai 改造原本的流程，挖掘新的增長空間。

許多投資人把這個方向當作創業公司的機會——這些領域需要長期、深入的積累才能有競爭力，潛在收入規模尚未大到吸引巨頭入場。多位矽谷的投資人告訴媒體，他們現在被覆蓋全行業的 ai 應用創業計劃書淹沒。

顯微鏡下的大模型思考軌跡

大模型輸出結果看似合理，但內部決策過程不透明，是一個黑盒子。3 月，anthropic 發布兩篇論文，嘗試用「ai 顯微鏡」技術追蹤模型內部運作機制，研究自研的大模型 claude 如何識別指令、組織語言、執行推理 [6]。

大模型如何掌握數十種語言？

claude 具備多語言能力，並不是靠「法語 claude」「中文 claude」同時上線，而是依賴一個共享的跨語言抽象機制。研究顯示，在不同語言中提問「小的反義詞」時，claude 激活的是相同的「小」與「相反」概念，最終生成「大的」語義，再翻譯成原語言輸出。隨著模型規模擴大，這種語言間的共享特徵也顯著增強。這表明模型具備跨語言遷移能力，推理和理解能力可在多領域中應用。

大模型預測下一個詞輸出，它怎麼押韻？

比如下面這兩句英文詩：
he saw a carrot and had to grab it
his hunger was like a starving rabbit

為了寫出第二行，大模型必須要滿足兩個條件：與「grab it」押韻、邏輯通順（為什麼要抓胡蘿蔔）。按照通常的大模型預測下一個詞的理解，大模型一邊寫詞一邊思考，直到末尾才會選了一個押韻的詞。

claude 在寫詩時並非逐字生成到末尾才湊韻，而是提前規劃。例如在寫與「grab it」押韻的第二句前，它會預先檢索相關話題詞如「rabbit」，再圍繞這個詞遣詞造句。如果修改其內部狀態中表示「rabbit」的部分，發現 claude 會改寫成以「habit」結尾的句子，仍然通順押韻；若注入「green」概念，結尾則變為「green」，不押韻但合理。這表明，大模型具備語言規劃能力和靈活性，能夠根據目標調整生成策略。

大模型不是計算器，如何心算數學題？

claude 不是專門為計算設計的，訓練目標只是預測下一個詞，但它能在不一步步書寫計算過程的情況下，正確計算如 36+59 的結果。研究發現，claude 並非靠死記硬背或模擬標準演算法，而是用並行路徑完成計算：一條估算總和，另一條精確確定末位數字，最終合成答案。claude 並不「自知」這些策略，它解釋運算過程時仍引用人類常規演算法，表明實際計算與解釋機制是分離的。

大模型的思維鏈看上去很有邏輯，可靠嗎？

claude 3.7 sonnet 等推理模型能進行較長的「思維過程」再輸出答案，通常能提升準確性，但有時也會偽造看似合理的推理步驟。比如計算 0.64 的平方根時，claude 激活了與中間計算步驟對應的特徵；但在處理難題，如大型餘弦函數時，有時會「胡謅」答案，甚至反向寫一個合理的思維鏈。

明明訓練大模型不要亂說，為什麼它還會捏造事實？

大語言模型天生會有「幻覺」，即使不知道答案也必須輸出下一個詞。claude 訓練中，學會在不確定準確答案時默認拒答，其內部存在一個「拒答」迴路一直激活，除非識別到熟悉信息，如「michael jordan」，此時「已知實體」特徵會抑制該迴路，模型才會作答。但大模型識別出是一個人名的時候，如「michael batkin」卻不了解相關信息，就可能誤激活「已知」特徵，導致拒答機制失效，從而捏造看似合理卻完全虛構的答案。

大模型的安全護欄為什麼會失效？

大模型一旦開始處理句子，就傾向完成語義合理、語法正確的表達，即使這會輸出有害內容。一個案例：模型被引導拼出「bomb」（通過「babies outlive mustard block」的首字母），從而生成炸彈製作說明。claude 下意識地拼出「bomb」後繼續生成內容，直到完成一個完整句子後，才「意識」到問題，切換為拒絕響應。

anthropic 稱，當前的研究方法還有局限：只是處理幾句簡短的提示詞，花數個小時也只能觀察到大模型計算過程的一小部分，還不一定真實反映模型在做什麼，如果想要分析模型處理長達成千上萬個詞的思維過程，不僅需要改進方法，可能還要用 ai 幫忙理解 ai。