2025 年 3 月全球 ai 重要趨勢。
文丨賀乾明
2025 年 3 月的 ai 月報,我們開始嘗試一種新形式:和知乎一起舉辦 「ai 腦暴」 線下活動,圍繞每月一個熱門 ai 主題,邀請相關學界研究者、業界從業者(研發或技術人員)、投資人等一起做閉門圓桌討論。
3 月 30 日,第一期 ai 腦暴舉行,主題是 agent,我們邀請 6 位嘉賓參加,他們來自高校、互聯網公司和非營利 ai 研究機構。本期月報中,我們摘錄了部分 ai 腦暴中的討論。
本期月報,你會看到:
為什麼開發 agent 簡單,但做好很難
ai 腦暴活動中 「殼重要還是模型重要」 部分討論要點
大模型應用成為互聯網流量入口的可能和 openai 的平台設想
算力投資分歧引發英偉達股價持續震蕩,黃仁勛講了個推理故事
併購交易活躍,英偉達積極出手
31 家 ai 公司獲得超 5000 萬美元融資,垂直 ai 應用受青睞
「顯微鏡」 追蹤大模型內部決策路徑的六個案例
以下是我們第 5 期 ai 月報,歡迎大家在留言區補充我們沒有提到的重要趨勢。
開發 agent 簡單,讓它好用難
3 月初,通用 agent 產品 manus 上線第二天,就被複刻出兩個開源版本——openmanus、owl。openmanus 甚至只用 4 個人,花 3 個小時。
這種 「速成」 似乎暗示:做 agent 沒那麼難。但從實際體驗和系統複雜度來看,讓 agent 「真正好用」 仍存在挑戰。
大模型公司 anthropic 與數十個團隊合作開發 agent 後,把其分成兩類 [1]:
workflows,通過預先定義好的代碼路徑,協調大模型和各種工具的系統。
agents,是大模型自主決定處理過程和工具使用方式的系統,能獨立完成任務。
agent 的開發看起來變得容易,是因為底層模型、框架、工具生態正在成熟。openai、anthropic 等公司提供了模型 api,調用瀏覽器、文件、搜索等組件已經有開源標準。anthropic 推出的 model context protocol(mcp)正在被更多公司接納,規範了 agent 如何與外部工具對接,openai 也已加入。
但無論是 manus 和它的各種開源變體,還是 openai 開發的 deep research 等 agent,問題仍層出不窮:
大模型自身局限:幻覺嚴重、邏輯跳躍、長文本處理能力不足、模型訓練數據不夠新鮮等,仍需要 rag(檢索增強生成)等技術兜底,會引入更多誤差。
系統設計難:難以精確引導模型行為,執行複雜任務容易陷入死循環;任務鏈越長,誤差累積越多;公開信息有限,而且主要是為人服務,而不是為大模型服務。
anthropic 總結過幾點工具層面的改進建議 [1]:
站在模型的角度思考,一個好的工具定義通常包括使用示例、邊界情況、輸入格式要求等,與其他工具有明顯區分。
持續測試模型如何使用工具,觀察模型犯的錯誤,然後不斷迭代改進。
設定 「防呆機制」(poka-yoke),調整參數設置,降低模型出錯的概率。
在大模型創業公司 pleias 訓練大模型的亞歷山大·多利亞(alexander doria)認為 「模型就是產品」[2]:
openai 的 deep research 並沒有在 o3 模型上做產品封裝,而是用強化學習的方式,在 o3 的基礎訓練一個新模型,讓它具備搜索的能力,而不是調用外部的工具、增加提示詞或者編排任務。
目前大多數 agent 產品都是工作流(workflows)產品,它在垂直場景有價值,但要實現重大突破,必須重新設計模型。僅專註應用開發,就像是 「用上一場戰爭的將軍,來打下一場戰爭」。
在 ai 腦暴活動上,我們討論了 「對 agent 來說,殼重要還是模型重要」,部分要點如下:
1. anthropic 的 cpo 邁克·克里格 (mike krieger) 提到的 「一方產品」「三方產品」 的觀點,用來理解這個問題很有意思。cursor 是一個成功的三方,它沒有訓練自己的大模型,但交互設計做得很好,構造了一個沉浸式的 agent,滿足了 agent 與人和(生產)環境統一對齊的情況,所以三方產品也能做得很好。
2. 對於 agent 來說,殼至少是一個起點,你能先把這個東西做出來。如果你這個殼足夠有前瞻性的話,你可以等著模型變強,然後這個東西就會變得更好。
3. 像 openhands 剛開始就是搭一個殼,在 roadmap 上面寫要訓模型,但沒有優先推進。接入一個商用模型 api,好像並不影響用戶用你的這套東西。他們認為,先把這個效果做好,大家能用起來,可能就足夠了。重點優化這一層殼,也能看到 claude 3.5 到 3.7 陸續發布,它的能力變得越來越強。
4. 所謂套盒,其實是在改模型的輸入和輸出。它們決定給基礎模型提供哪些內容,有時它們會對基礎模型的輸出進行特定的格式化。兩者實際上是正交的,當一方變得足夠強大時,另一方的強弱對整體效果的影響可能不再顯著。
5. anthropic 推出的 mcp(model context protocol)也在提高 agent 產品的價值。他們寫了一層協議,以某種方式將所有現有的軟體轉化為語言模型調用的工具。它是一個開放的生態系統,任何公司都可以做貢獻,希望被大型語言模型調用的軟體,可以自行接入 mcp。現有軟體都可以通過 mcp 重新封裝一遍。
6. 大模型預訓練、後訓練和 agent 架構優化是整體工程,層層遞進,能力相互關聯。對 deepseek 及其他推理模型案例研究發現,推理模型能力離不開基礎模型的持續迭代,本輪 agent 應用的發展也源自 llm-based 對 rl-based 的架構迭代。
7. 基礎模型迭代仍是 agent 性能提升的重要影響因素,基礎模型迭代的速度持續放緩,一方面來自於預訓練 scaling laws 邊際效應遞減。另一方面,更大規模的資源投入門檻讓下一代模型的 「擁有權」 收斂到頭部廠商中。
8. 大模型的發展,會推動垂直頭部應用廠商升級,而非顛覆垂直應用的市場格局;在超級應用的市場爭奪中,參與者需要強大生態渠道構建能力,快速整合本地生活、地圖、支付等一系列通用場景建設生態,推動大模型從簡單的問答與靈感提示,向日常生活中進一步滲透,改變人機交互方式。
9. 與互聯網與移動互聯網時期一樣,大模型推動的智能應用時代,正在從通用技術的發展嚮應用能力提升過渡,基礎模型的迭代是 agent 應用的基石,而 agent 應用的壁壘除了必要的工程能力外,會轉向用戶、場景和行業知識的理解與積累。
大模型成為流量入口會怎樣
3 月,openai ceo 山姆·阿爾特曼(sam altman)接受採訪時被問 [3]:「五年後,擁有 10 億日活、無需獲客的網站和最先進的模型,什麼更有價值?」
他沉吟 2 秒,選擇 「10 億日活用戶的網站」。阿爾特曼設想了一個 openai 成為互聯網世界入口的未來:用戶用 openai 賬戶,能帶著使用額度、定製模型等,自由使用任何集成了 openai 模型 api 的第三方服務。
他說,「這是真正成為一個偉大平台的關鍵部分。」
openai 的這一平台願景,已經在其 1 月發布的 agent 產品 operator 中初現端倪。operator 可以搜索網頁為用戶規劃旅行方案、寫報告、提供購物建議,與外賣平台 doordash、網約車平台 uber、購物網站 ebay 等服務打通。
operator 還沒有帶來太大衝擊,但大模型應用成為流量入口的趨勢日益明顯。adobe analytics 分析了美國電商零售網站超萬億次訪問後發現 [4]:
2024 年 9 月以來,大模型應用帶來的流量每兩個月翻一番;去年末兩個月,這類流量同比增長 1200%。
與傳統流量來源相比,從大模型應用引導的流量在網站上停留的時間增長 8%,頁面瀏覽量增加 12%,跳出率低 23%,但是轉化率低 9%,不過也在提升。
adobe 還調研 5000 名美國消費者獲知:近四成人正在使用大模型輔助購物,過半人計劃今年這麼做。
許多電商或本地生活應用的核心收入都是站內的推薦廣告,比如亞馬遜、阿里、京東、拼多多、美團等。如果訪問這些網站的是 ai,而不是人,這些廣告系統還能起效嗎?
今年 2 月的財報會上,亞馬遜 ceo 安迪·賈西(andy jassy)被問及 「agent 如何影響公司電商業務」。他給出一個模稜兩可的答案:「大多數零售商都會有某種與 agent 互動的條款,我們也不會有什麼不同。」
沃爾瑪美國業務的首席技術官哈里·瓦蘇德夫(hari vasudev)提出了一個應對策略:「開發自己的 agent 與其他的 agent 互動,推薦產品或提供更多商品信息。」
ai 腦暴活動中,一位 ai 戰略研究人士認為,就算是流量入口發生變化,現有的大廠和在特定場景深耕的公司依然會有優勢:
隨著開源模型與閉源模型的性能持續逼近,應用廠商可以通過較低成本獲得模型能力,基於行業數據有監督微調(sft)一個業務可用的行業模型和 agent;過去有用戶、數據和 it 能力積累的公司,在這場競爭中更具競爭優勢。
算力投資分歧,英偉達的推理故事
3 月,算力投資的分歧持續,英偉達股價持續波動:月初 10 天下降 13%,隨後反彈,然後又跌了下來。
這一波動背後是兩個未達成共識的問題:算力消耗從訓練大模型轉向推理,英偉達的 gpu 還是唯一選擇嗎?當前算力投資是否飽和?
過去這個月,算力可能飽和甚至過剩的跡象增多:
參數更小的模型性能提升。google 開源的 270 億參數模型 gemma 3 模型,在 chatbot arena 上得分超過老版 deepseek-v3(參數 6710 億,每次回答問題激活 370 億參數);阿里開源 320 億參數推理模型 qwq,得分幾乎追上 r1 。
據媒體報道,因為 deepseek、阿里、google 等公司開源算力消耗更少但性能不差的模型,許多美國公司都削減了 ai 支出。
aws 以英偉達 h100 晶元 25% 的價格向客戶銷售自研 ai 晶元 trainium 的相同算力;google 找聯發科生產自研 ai 晶元,要進一步壓低 ai 晶元成本。
微軟 ceo 薩提亞·納德拉之後,阿里董事局主席蔡崇信也警告,美國一些數據中心公司冒險建設新設施,稱 「開始看到一些泡沫」。
但一直不願與英偉達合作的蘋果開始採購英偉達晶元,又給市場注入信心。3 月的 gtc 大會上,英偉達 ceo 黃仁勛講了關於推理的新故事:
openai 發布 o1 這樣的推理模型後,ai 算力的需求超過去年英偉達預期需求的 100 倍。能夠推理的 ai,將問題一步步分解,可能以幾種不同的方式接近並選擇最佳答案,生成的 token 數量輕鬆達到百倍以上。
數據中心可用的電力資源有限。相同功耗,英偉達的 b 系列 gpu,性能比 h 系列提升 25 倍。2026 年將推出的 vera rubin 架構晶元,會在 b 系列基礎上再次大幅提升——消耗相同的電,可以生成更多 token。
推理模型需要更高的吞吐效率,才能保證用戶體驗。英偉達開發 dynamo 軟體,能動態調整 gpu 處理 token 的情況。推理模型解決任務時需要大量輸入信息,模型處理提示詞和大量原始信息的階段(prefill,預填充)任務重,它可以把更多算力調配過來,保證用戶體驗和 gpu 的使用效率。
英偉達展示 gpu 優勢。縱軸是算力伺服器處理 token 的規模,橫軸是算力伺服器返回 token 的速度。它們構成 token 的吞吐量。token 吞吐量越高,回報就越高。
「當 b 系列 gpu 開始大量出貨時,你甚至無法把 h 系列免費送出去。」 黃仁勛說。他經常用 「買得越多,省得越多」 推銷英偉達先進 gpu,現在變成了 「買得越多,賺得越多」。
並非所有任務都需要推理模型解決,且更小的推理模型如 o3 mini、qwq-32b 同樣能實現良好效果。整體算下來,推理模型確實增加 token 消耗,具體是否會到百倍以上仍有待驗證。
ai 腦爆活動上,一位專註 ai 推理的研究者說:
當前看上去消耗大量算力的 agent 應用,還有很多算力優化空間。agent 瀏覽網頁獲取信息的時候,可能會抓取大量無用的信息作為輸入,比如給網頁截屏提取信息,可能與 99% 的像素是無用的,導致算力成本大幅增加。
投融資風向:併購交易變多,獲得大額融資的 ai 公司聚焦垂直領域
併購活躍,頭部公司擴展業務邊界
3 月宣布的大額併購交易超過前三月總和,6 起金額超過 1 億美元的交易公開,另有多起仍在談判中。
ai 行業正在從 「單一的技術或產品競爭」 向 「生態系統整合」 轉變,頭部公司積極擴展業務邊界,挖掘生態護城河:
英偉達 3.2 億美元收購合成數據公司 gretel、正在洽談數億美元收購阿里前副總裁賈揚清創辦的 ai 推理服務公司 lepton ai,從算力加速向推理、數據層拓展。
馬斯克旗下 xai 用股權併購 x(twitter),整合數據、模型、算力、分發渠道和人才。交易中,xai 的估值是 800 億美元,x 的估值 330 億美元。
google 以 320 億美元現金收購網路安全創業公司 wiz,servicenow 斥資 28.5 億美元收購 ai 創業公司 moveworks,uipath 收購開發定價、庫存管理等 ai 工具 的 peak 等,進一步擴張企業服務生態。
同時,英偉達投資支持的 gpu 算力租賃創業公司 coreweave 上市,籌集 15 億美元,此前它計劃籌集 40 億美元。
拿到大額融資的公司變多,聚焦垂直領域
3 月,融資超過 5000 萬美元的 ai 公司達 31 家,比上月增加 8 家,投資風向相對穩定。
基礎模型方向,頭部公司融資驚人:openai 又融資 400 億美元,累計融資額達到 586 億美元,最新估值超過 3000 億美元;anthropic 又融資 35 億美元,累計融資額達到 180 億美元,估值達到 615 億美元。
國內,智譜先後宣布拿到杭州、珠海、成都等三地國資的投資,總額達 18 億元,累計融資超百億人民幣,完成公司股份制改革,為上市鋪路。
基礎設施方向,gpu 算力租賃服務的公司融資潮告一段落,研發 ai 晶元的以色列公司 retym 和為大公司提供網路解決方案的 nexthop ai 拿到大額融資。
為 openai、google 等公司提供編程數據的創業公司 turing 拿到 1.11 億美元融資,估值 22 億美元,其年化收入達到 1.67 億美元,已經盈利,顯示數據標註服務的商業模式正在成熟。
scale ai 正在推動估值 250 億美元的老股交易,相比去年 5 月估值提升 80%。scale ai 正在拓展業務範圍,為人形機器人公司提供數據採集服務。
人形機器人創業公司迎來融資高潮,單月出現 7 筆大額融資,創近年新高:
國內,智元機器人、它石智能、千尋智能、維他動力等項目完成億元級人民幣或美元融資,估值最高的智元機器人已經達到 150 億元。
海外,agility robotics 籌集 4 億美元,dexterity 融資 9500 萬美元,apptronik 上個月融資 3.5 億美元後再次融資 5000 萬美元;軟銀則領投 terabase energy 的 1.3 億美元融資,該公司用機器人建設太陽能發電廠。
應用方向,大額融資主要流向用大模型技術改造垂直領域的創業公司,分布在編程、醫療健康、企業數據服務、金融防詐、物流運輸、藥物發現等領域,至少有 18 家。
這些公司多數成立在 chatgpt 發布之前,已在各自領域中積累穩定客戶和數據資源。它們不是給大模型做 「殼」,而是想把大模型與垂直場景連接起來,用 ai 改造原本的流程,挖掘新的增長空間。
許多投資人把這個方向當作創業公司的機會——這些領域需要長期、深入的積累才能有競爭力,潛在收入規模尚未大到吸引巨頭入場。多位矽谷的投資人告訴媒體,他們現在被覆蓋全行業的 ai 應用創業計劃書淹沒。
顯微鏡下的大模型思考軌跡
大模型輸出結果看似合理,但內部決策過程不透明,是一個黑盒子。3 月,anthropic 發布兩篇論文,嘗試用 「ai 顯微鏡」 技術追蹤模型內部運作機制,研究自研的大模型 claude 如何識別指令、組織語言、執行推理 [6]。
大模型如何掌握數十種語言?
claude 具備多語言能力,並不是靠 「法語 claude」「中文 claude」 同時上線,而是依賴一個共享的跨語言抽象機制。研究顯示,在不同語言中提問 「小的反義詞」 時,claude 激活的是相同的 「小」 與 「相反」 概念,最終生成 「大的」 語義,再翻譯成原語言輸出。隨著模型規模擴大,這種語言間的共享特徵也顯著增強。這表明模型具備跨語言遷移能力,推理和理解能力可在多領域中應用。
大模型預測下一個詞輸出,它怎麼押韻?
比如下面這兩句英文詩:
he saw a carrot and had to grab it
his hunger was like a starving rabbit
為了寫出第二行,大模型必須要滿足兩個條件:與 「grab it」 押韻、邏輯通順(為什麼要抓胡蘿蔔)。按照通常的大模型預測下一個詞的理解,大模型一邊寫詞一邊思考,直到末尾才會選了一個押韻的詞。
claude 在寫詩時並非逐字生成到末尾才湊韻,而是提前規劃。例如在寫與 「grab it」 押韻的第二句前,它會預先檢索相關話題詞如 「rabbit」,再圍繞這個詞遣詞造句。如果修改其內部狀態中表示 「rabbit」 的部分,發現 claude 會改寫成以 「habit」 結尾的句子,仍然通順押韻;若注入 「green」 概念,結尾則變為 「green」,不押韻但合理。這表明,大模型具備語言規劃能力和靈活性,能夠根據目標調整生成策略。
大模型不是計算器,如何心算數學題?
claude 不是專門為計算設計的,訓練目標只是預測下一個詞,但它能在不一步步書寫計算過程的情況下,正確計算如 36+59 的結果。研究發現,claude 並非靠死記硬背或模擬標準演算法,而是用並行路徑完成計算:一條估算總和,另一條精確確定末位數字,最終合成答案。claude 並不 「自知」 這些策略,它解釋運算過程時仍引用人類常規演算法,表明實際計算與解釋機制是分離的。
大模型的思維鏈看上去很有邏輯,可靠嗎?
claude 3.7 sonnet 等推理模型能進行較長的 「思維過程」 再輸出答案,通常能提升準確性,但有時也會偽造看似合理的推理步驟。比如計算 0.64 的平方根時,claude 激活了與中間計算步驟對應的特徵;但在處理難題,如大型餘弦函數時,有時會 「胡謅」 答案,甚至反向寫一個合理的思維鏈。
明明訓練大模型不要亂說,為什麼它還會捏造事實?
大語言模型天生會有 「幻覺」,即使不知道答案也必須輸出下一個詞。claude 訓練中,學會在不確定準確答案時默認拒答,其內部存在一個 「拒答」 迴路一直激活,除非識別到熟悉信息,如 「michael jordan」,此時 「已知實體」 特徵會抑制該迴路,模型才會作答。但大模型識別出是一個人名的時候,如 「michael batkin」 卻不了解相關信息,就可能誤激活 「已知」 特徵,導致拒答機制失效,從而捏造看似合理卻完全虛構的答案。
大模型的安全護欄為什麼會失效?
大模型一旦開始處理句子,就傾向完成語義合理、語法正確的表達,即使這會輸出有害內容。一個案例:模型被引導拼出 「bomb」(通過 「babies outlive mustard block」 的首字母),從而生成炸彈製作說明。claude 下意識地拼出 「bomb」 後繼續生成內容,直到完成一個完整句子後,才 「意識」 到問題,切換為拒絕響應。
anthropic 稱,當前的研究方法還有局限:只是處理幾句簡短的提示詞,花數個小時也只能觀察到大模型計算過程的一小部分,還不一定真實反映模型在做什麼,如果想要分析模型處理長達成千上萬個詞的思維過程,不僅需要改進方法,可能還要用 ai 幫忙理解 ai。
歡迎大家到知乎搜「晚點」,閱讀文章參與相關討論。
[1] anthropic 的 agent 開發經驗
https://www.anthropic.com/engineering/building-effective-agents
[2] 亞歷山大·多利亞 「模型就是產品」 博客文章
https://vintagedata.org/blog/posts/model-is-the-product
[3] 阿爾特曼接受本·湯普森訪談
https://stratechery.com/2025/an-interview-with-openai-ceo-sam-altman-about-building-a-consumer-tech-company/
[4] adobe analytics 的流量分析報告
https://searchengineland.com/generative-ai-surging-online-shopping-report-453312
[5] 黃仁勛在 gtc 上的發言
https://www.nvidia.com/gtc/keynote/
[6] anthropic 追蹤大模型內部思考過程的研究
https://www.anthropic.com/research/tracing-thoughts-language-model
題圖來源:ai 生成。