開發好用的 Agent 難;如果大模型成為流量入口;英偉達的推理故事

2025年04月03日15:20:31 科技 7906

開發好用的 Agent 難;如果大模型成為流量入口;英偉達的推理故事 - 天天要聞

2025 年 3 月全球 ai 重要趨勢。

賀乾明

2025 年 3 月的 ai 月報,我們開始嘗試一種新形式:和知乎一起舉辦 「ai 腦暴」 線下活動,圍繞每月一個熱門 ai 主題,邀請相關學界研究者、業界從業者(研發或技術人員)、投資人等一起做閉門圓桌討論。

3 月 30 日,第一期 ai 腦暴舉行,主題是 agent,我們邀請 6 位嘉賓參加,他們來自高校、互聯網公司和非營利 ai 研究機構。本期月報中,我們摘錄了部分 ai 腦暴中的討論。

本期月報,你會看到:

為什麼開發 agent 簡單,但做好很難

ai 腦暴活動中 「殼重要還是模型重要」 部分討論要點

大模型應用成為互聯網流量入口的可能和 openai 的平台設想

算力投資分歧引發英偉達股價持續震蕩,黃仁勛講了個推理故事

併購交易活躍,英偉達積極出手

31 家 ai 公司獲得超 5000 萬美元融資,垂直 ai 應用受青睞

「顯微鏡」 追蹤大模型內部決策路徑的六個案例

以下是我們第 5 期 ai 月報,歡迎大家在留言區補充我們沒有提到的重要趨勢。

開發 agent 簡單,讓它好用難

3 月初,通用 agent 產品 manus 上線第二天,就被複刻出兩個開源版本——openmanus、owl。openmanus 甚至只用 4 個人,花 3 個小時。

這種 「速成」 似乎暗示:做 agent 沒那麼難。但從實際體驗和系統複雜度來看,讓 agent 「真正好用」 仍存在挑戰。

大模型公司 anthropic 與數十個團隊合作開發 agent 後,把其分成兩類 [1]:

  • workflows,通過預先定義好的代碼路徑,協調大模型和各種工具的系統。

  • agents,是大模型自主決定處理過程和工具使用方式的系統,能獨立完成任務。

agent 的開發看起來變得容易,是因為底層模型、框架、工具生態正在成熟。openai、anthropic 等公司提供了模型 api,調用瀏覽器、文件、搜索等組件已經有開源標準。anthropic 推出的 model context protocol(mcp)正在被更多公司接納,規範了 agent 如何與外部工具對接,openai 也已加入。

但無論是 manus 和它的各種開源變體,還是 openai 開發的 deep research 等 agent,問題仍層出不窮:

  • 大模型自身局限:幻覺嚴重、邏輯跳躍、長文本處理能力不足、模型訓練數據不夠新鮮等,仍需要 rag(檢索增強生成)等技術兜底,會引入更多誤差。

  • 系統設計難:難以精確引導模型行為,執行複雜任務容易陷入死循環;任務鏈越長,誤差累積越多;公開信息有限,而且主要是為人服務,而不是為大模型服務。

anthropic 總結過幾點工具層面的改進建議 [1]:

  • 站在模型的角度思考,一個好的工具定義通常包括使用示例、邊界情況、輸入格式要求等,與其他工具有明顯區分。

  • 持續測試模型如何使用工具,觀察模型犯的錯誤,然後不斷迭代改進。

  • 設定 「防呆機制」(poka-yoke),調整參數設置,降低模型出錯的概率。

在大模型創業公司 pleias 訓練大模型的亞歷山大·多利亞(alexander doria)認為 「模型就是產品」[2]:

openai 的 deep research 並沒有在 o3 模型上做產品封裝,而是用強化學習的方式,在 o3 的基礎訓練一個新模型,讓它具備搜索的能力,而不是調用外部的工具、增加提示詞或者編排任務。

目前大多數 agent 產品都是工作流(workflows)產品,它在垂直場景有價值,但要實現重大突破,必須重新設計模型。僅專註應用開發,就像是 「用上一場戰爭的將軍,來打下一場戰爭」。

在 ai 腦暴活動上,我們討論了 「對 agent 來說,殼重要還是模型重要」,部分要點如下:

1. anthropic 的 cpo 邁克·克里格 (mike krieger) 提到的 「一方產品」「三方產品」 的觀點,用來理解這個問題很有意思。cursor 是一個成功的三方,它沒有訓練自己的大模型,但交互設計做得很好,構造了一個沉浸式的 agent,滿足了 agent 與人和(生產)環境統一對齊的情況,所以三方產品也能做得很好。

2. 對於 agent 來說,殼至少是一個起點,你能先把這個東西做出來。如果你這個殼足夠有前瞻性的話,你可以等着模型變強,然後這個東西就會變得更好。

3. 像 openhands 剛開始就是搭一個殼,在 roadmap 上面寫要訓模型,但沒有優先推進。接入一個商用模型 api,好像並不影響用戶用你的這套東西。他們認為,先把這個效果做好,大家能用起來,可能就足夠了。重點優化這一層殼,也能看到 claude 3.5 到 3.7 陸續發佈,它的能力變得越來越強。

4. 所謂套盒,其實是在改模型的輸入和輸出。它們決定給基礎模型提供哪些內容,有時它們會對基礎模型的輸出進行特定的格式化。兩者實際上是正交的,當一方變得足夠強大時,另一方的強弱對整體效果的影響可能不再顯著。

5. anthropic 推出的 mcp(model context protocol)也在提高 agent 產品的價值。他們寫了一層協議,以某種方式將所有現有的軟件轉化為語言模型調用的工具。它是一個開放的生態系統,任何公司都可以做貢獻,希望被大型語言模型調用的軟件,可以自行接入 mcp。現有軟件都可以通過 mcp 重新封裝一遍。

6. 大模型預訓練、後訓練和 agent 架構優化是整體工程,層層遞進,能力相互關聯。對 deepseek 及其他推理模型案例研究發現,推理模型能力離不開基礎模型的持續迭代,本輪 agent 應用的發展也源自 llm-based 對 rl-based 的架構迭代。

7. 基礎模型迭代仍是 agent 性能提升的重要影響因素,基礎模型迭代的速度持續放緩,一方面來自於預訓練 scaling laws 邊際效應遞減。另一方面,更大規模的資源投入門檻讓下一代模型的 「擁有權」 收斂到頭部廠商中。

8. 大模型的發展,會推動垂直頭部應用廠商升級,而非顛覆垂直應用的市場格局;在超級應用的市場爭奪中,參與者需要強大生態渠道構建能力,快速整合本地生活、地圖、支付等一系列通用場景建設生態,推動大模型從簡單的問答與靈感提示,向日常生活中進一步滲透,改變人機交互方式。

9. 與互聯網與移動互聯網時期一樣,大模型推動的智能應用時代,正在從通用技術的發展嚮應用能力提升過渡,基礎模型的迭代是 agent 應用的基石,而 agent 應用的壁壘除了必要的工程能力外,會轉向用戶、場景和行業知識的理解與積累。

大模型成為流量入口會怎樣

3 月,openai ceo 山姆·阿爾特曼(sam altman)接受採訪時被問 [3]:「五年後,擁有 10 億日活、無需獲客的網站和最先進的模型,什麼更有價值?」

他沉吟 2 秒,選擇 「10 億日活用戶的網站」。阿爾特曼設想了一個 openai 成為互聯網世界入口的未來:用戶用 openai 賬戶,能帶着使用額度、定製模型等,自由使用任何集成了 openai 模型 api 的第三方服務。

他說,「這是真正成為一個偉大平台的關鍵部分。」

openai 的這一平台願景,已經在其 1 月發佈的 agent 產品 operator 中初現端倪。operator 可以搜索網頁為用戶規劃旅行方案、寫報告、提供購物建議,與外賣平台 doordash、網約車平台 uber、購物網站 ebay 等服務打通。

operator 還沒有帶來太大衝擊,但大模型應用成為流量入口的趨勢日益明顯。adobe analytics 分析了美國電商零售網站超萬億次訪問後發現 [4]:

  • 2024 年 9 月以來,大模型應用帶來的流量每兩個月翻一番;去年末兩個月,這類流量同比增長 1200%。

  • 與傳統流量來源相比,從大模型應用引導的流量在網站上停留的時間增長 8%,頁面瀏覽量增加 12%,跳出率低 23%,但是轉化率低 9%,不過也在提升。

adobe 還調研 5000 名美國消費者獲知:近四成人正在使用大模型輔助購物,過半人計劃今年這麼做。

許多電商或本地生活應用的核心收入都是站內的推薦廣告,比如亞馬遜、阿里、京東、拼多多、美團等。如果訪問這些網站的是 ai,而不是人,這些廣告系統還能起效嗎?

今年 2 月的財報會上,亞馬遜 ceo 安迪·賈西(andy jassy)被問及 「agent 如何影響公司電商業務」。他給出一個模稜兩可的答案:「大多數零售商都會有某種與 agent 互動的條款,我們也不會有什麼不同。」

沃爾瑪美國業務的首席技術官哈里·瓦蘇德夫(hari vasudev)提出了一個應對策略:「開發自己的 agent 與其他的 agent 互動,推薦產品或提供更多商品信息。」

ai 腦暴活動中,一位 ai 戰略研究人士認為,就算是流量入口發生變化,現有的大廠和在特定場景深耕的公司依然會有優勢:

隨着開源模型與閉源模型的性能持續逼近,應用廠商可以通過較低成本獲得模型能力,基於行業數據有監督微調(sft)一個業務可用的行業模型和 agent;過去有用戶、數據和 it 能力積累的公司,在這場競爭中更具競爭優勢。

算力投資分歧,英偉達的推理故事

3 月,算力投資的分歧持續,英偉達股價持續波動:月初 10 天下降 13%,隨後反彈,然後又跌了下來。

這一波動背後是兩個未達成共識的問題:算力消耗從訓練大模型轉向推理,英偉達的 gpu 還是唯一選擇嗎?當前算力投資是否飽和?

過去這個月,算力可能飽和甚至過剩的跡象增多:

  • 參數更小的模型性能提升。google 開源的 270 億參數模型 gemma 3 模型,在 chatbot arena 上得分超過老版 deepseek-v3(參數 6710 億,每次回答問題激活 370 億參數);阿里開源 320 億參數推理模型 qwq,得分幾乎追上 r1 。

開發好用的 Agent 難;如果大模型成為流量入口;英偉達的推理故事 - 天天要聞

  • 據媒體報道,因為 deepseek、阿里、google 等公司開源算力消耗更少但性能不差的模型,許多美國公司都削減了 ai 支出。

  • aws 以英偉達 h100 芯片 25% 的價格向客戶銷售自研 ai 芯片 trainium 的相同算力;google 找聯發科生產自研 ai 芯片,要進一步壓低 ai 芯片成本。

  • 微軟 ceo 薩提亞·納德拉之後,阿里董事局主席蔡崇信也警告,美國一些數據中心公司冒險建設新設施,稱 「開始看到一些泡沫」。

但一直不願與英偉達合作的蘋果開始採購英偉達芯片,又給市場注入信心。3 月的 gtc 大會上,英偉達 ceo 黃仁勛講了關於推理的新故事:

  • openai 發佈 o1 這樣的推理模型後,ai 算力的需求超過去年英偉達預期需求的 100 倍。能夠推理的 ai,將問題一步步分解,可能以幾種不同的方式接近並選擇最佳答案,生成的 token 數量輕鬆達到百倍以上。

  • 數據中心可用的電力資源有限。相同功耗,英偉達的 b 系列 gpu,性能比 h 系列提升 25 倍。2026 年將推出的 vera rubin 架構芯片,會在 b 系列基礎上再次大幅提升——消耗相同的電,可以生成更多 token。

  • 推理模型需要更高的吞吐效率,才能保證用戶體驗。英偉達開發 dynamo 軟件,能動態調整 gpu 處理 token 的情況。推理模型解決任務時需要大量輸入信息,模型處理提示詞和大量原始信息的階段(prefill,預填充)任務重,它可以把更多算力調配過來,保證用戶體驗和 gpu 的使用效率。

開發好用的 Agent 難;如果大模型成為流量入口;英偉達的推理故事 - 天天要聞

英偉達展示 gpu 優勢。縱軸是算力服務器處理 token 的規模,橫軸是算力服務器返回 token 的速度。它們構成 token 的吞吐量。token 吞吐量越高,回報就越高。

「當 b 系列 gpu 開始大量出貨時,你甚至無法把 h 系列免費送出去。」 黃仁勛說。他經常用 「買得越多,省得越多」 推銷英偉達先進 gpu,現在變成了 「買得越多,賺得越多」。

並非所有任務都需要推理模型解決,且更小的推理模型如 o3 mini、qwq-32b 同樣能實現良好效果。整體算下來,推理模型確實增加 token 消耗,具體是否會到百倍以上仍有待驗證。

ai 腦爆活動上,一位專註 ai 推理的研究者說:

當前看上去消耗大量算力的 agent 應用,還有很多算力優化空間。agent 瀏覽網頁獲取信息的時候,可能會抓取大量無用的信息作為輸入,比如給網頁截屏提取信息,可能與 99% 的像素是無用的,導致算力成本大幅增加。

投融資風向:併購交易變多,獲得大額融資的 ai 公司聚焦垂直領域

併購活躍,頭部公司擴展業務邊界

3 月宣布的大額併購交易超過前三月總和,6 起金額超過 1 億美元的交易公開,另有多起仍在談判中。

ai 行業正在從 「單一的技術或產品競爭」 向 「生態系統整合」 轉變,頭部公司積極擴展業務邊界,挖掘生態護城河:

  • 英偉達 3.2 億美元收購合成數據公司 gretel、正在洽談數億美元收購阿里前副總裁賈揚清創辦的 ai 推理服務公司 lepton ai,從算力加速向推理、數據層拓展。

  • 馬斯克旗下 xai 用股權併購 x(twitter),整合數據、模型、算力、分發渠道和人才。交易中,xai 的估值是 800 億美元,x 的估值 330 億美元。

  • google 以 320 億美元現金收購網絡安全創業公司 wiz,servicenow 斥資 28.5 億美元收購 ai 創業公司 moveworks,uipath 收購開發定價、庫存管理等 ai 工具 的 peak 等,進一步擴張企業服務生態。

同時,英偉達投資支持的 gpu 算力租賃創業公司 coreweave 上市,籌集 15 億美元,此前它計劃籌集 40 億美元。

拿到大額融資的公司變多,聚焦垂直領域

3 月,融資超過 5000 萬美元的 ai 公司達 31 家,比上月增加 8 家,投資風向相對穩定。

基礎模型方向,頭部公司融資驚人:openai 又融資 400 億美元,累計融資額達到 586 億美元,最新估值超過 3000 億美元;anthropic 又融資 35 億美元,累計融資額達到 180 億美元,估值達到 615 億美元。

國內,智譜先後宣布拿到杭州、珠海、成都等三地國資的投資,總額達 18 億元,累計融資超百億人民幣,完成公司股份制改革,為上市鋪路。

基礎設施方向,gpu 算力租賃服務的公司融資潮告一段落,研發 ai 芯片的以色列公司 retym 和為大公司提供網絡解決方案的 nexthop ai 拿到大額融資。

為 openai、google 等公司提供編程數據的創業公司 turing 拿到 1.11 億美元融資,估值 22 億美元,其年化收入達到 1.67 億美元,已經盈利,顯示數據標註服務的商業模式正在成熟。

scale ai 正在推動估值 250 億美元的老股交易,相比去年 5 月估值提升 80%。scale ai 正在拓展業務範圍,為人形機械人公司提供數據採集服務。

人形機械人創業公司迎來融資高潮,單月出現 7 筆大額融資,創近年新高:

  • 國內,智元機械人、它石智能、千尋智能、維他動力等項目完成億元級人民幣或美元融資,估值最高的智元機械人已經達到 150 億元。

  • 海外,agility robotics 籌集 4 億美元,dexterity 融資 9500 萬美元,apptronik 上個月融資 3.5 億美元後再次融資 5000 萬美元;軟銀則領投 terabase energy 的 1.3 億美元融資,該公司用機械人建設太陽能發電廠。

應用方向,大額融資主要流向用大模型技術改造垂直領域的創業公司,分佈在編程、醫療健康、企業數據服務、金融防詐、物流運輸、藥物發現等領域,至少有 18 家。

這些公司多數成立在 chatgpt 發佈之前,已在各自領域中積累穩定客戶和數據資源。它們不是給大模型做 「殼」,而是想把大模型與垂直場景連接起來,用 ai 改造原本的流程,挖掘新的增長空間。

許多投資人把這個方向當作創業公司的機會——這些領域需要長期、深入的積累才能有競爭力,潛在收入規模尚未大到吸引巨頭入場。多位硅谷的投資人告訴媒體,他們現在被覆蓋全行業的 ai 應用創業計劃書淹沒。

顯微鏡下的大模型思考軌跡

大模型輸出結果看似合理,但內部決策過程不透明,是一個黑盒子。3 月,anthropic 發佈兩篇論文,嘗試用 「ai 顯微鏡」 技術追蹤模型內部運作機制,研究自研的大模型 claude 如何識別指令、組織語言、執行推理 [6]。

  • 大模型如何掌握數十種語言?

claude 具備多語言能力,並不是靠 「法語 claude」「中文 claude」 同時上線,而是依賴一個共享的跨語言抽象機制。研究顯示,在不同語言中提問 「小的反義詞」 時,claude 激活的是相同的 「小」 與 「相反」 概念,最終生成 「大的」 語義,再翻譯成原語言輸出。隨着模型規模擴大,這種語言間的共享特徵也顯著增強。這表明模型具備跨語言遷移能力,推理和理解能力可在多領域中應用。

  • 大模型預測下一個詞輸出,它怎麼押韻?

比如下面這兩句英文詩:

he saw a carrot and had to grab it

his hunger was like a starving rabbit

為了寫出第二行,大模型必須要滿足兩個條件:與 「grab it」 押韻、邏輯通順(為什麼要抓胡蘿蔔)。按照通常的大模型預測下一個詞的理解,大模型一邊寫詞一邊思考,直到末尾才會選了一個押韻的詞。

claude 在寫詩時並非逐字生成到末尾才湊韻,而是提前規劃。例如在寫與 「grab it」 押韻的第二句前,它會預先檢索相關話題詞如 「rabbit」,再圍繞這個詞遣詞造句。如果修改其內部狀態中表示 「rabbit」 的部分,發現 claude 會改寫成以 「habit」 結尾的句子,仍然通順押韻;若注入 「green」 概念,結尾則變為 「green」,不押韻但合理。這表明,大模型具備語言規劃能力和靈活性,能夠根據目標調整生成策略。

  • 大模型不是計算器,如何心算數學題?

claude 不是專門為計算設計的,訓練目標只是預測下一個詞,但它能在不一步步書寫計算過程的情況下,正確計算如 36+59 的結果。研究發現,claude 並非靠死記硬背或模擬標準算法,而是用並行路徑完成計算:一條估算總和,另一條精確確定末位數字,最終合成答案。claude 並不 「自知」 這些策略,它解釋運算過程時仍引用人類常規算法,表明實際計算與解釋機制是分離的。

  • 大模型的思維鏈看上去很有邏輯,可靠嗎?

claude 3.7 sonnet 等推理模型能進行較長的 「思維過程」 再輸出答案,通常能提升準確性,但有時也會偽造看似合理的推理步驟。比如計算 0.64 的平方根時,claude 激活了與中間計算步驟對應的特徵;但在處理難題,如大型餘弦函數時,有時會 「胡謅」 答案,甚至反向寫一個合理的思維鏈。

  • 明明訓練大模型不要亂說,為什麼它還會捏造事實?

大語言模型天生會有 「幻覺」,即使不知道答案也必須輸出下一個詞。claude 訓練中,學會在不確定準確答案時默認拒答,其內部存在一個 「拒答」 迴路一直激活,除非識別到熟悉信息,如 「michael jordan」,此時 「已知實體」 特徵會抑制該迴路,模型才會作答。但大模型識別出是一個人名的時候,如 「michael batkin」 卻不了解相關信息,就可能誤激活 「已知」 特徵,導致拒答機制失效,從而捏造看似合理卻完全虛構的答案。

  • 大模型的安全護欄為什麼會失效?

大模型一旦開始處理句子,就傾向完成語義合理、語法正確的表達,即使這會輸出有害內容。一個案例:模型被引導拼出 「bomb」(通過 「babies outlive mustard block」 的首字母),從而生成炸彈製作說明。claude 下意識地拼出 「bomb」 後繼續生成內容,直到完成一個完整句子後,才 「意識」 到問題,切換為拒絕響應。

anthropic 稱,當前的研究方法還有局限:只是處理幾句簡短的提示詞,花數個小時也只能觀察到大模型計算過程的一小部分,還不一定真實反映模型在做什麼,如果想要分析模型處理長達成千上萬個詞的思維過程,不僅需要改進方法,可能還要用 ai 幫忙理解 ai。

歡迎大家到知乎搜「晚點」,閱讀文章參與相關討論。

[1] anthropic 的 agent 開發經驗
https://www.anthropic.com/engineering/building-effective-agents

[2] 亞歷山大·多利亞 「模型就是產品」 博客文章
https://vintagedata.org/blog/posts/model-is-the-product

[3] 阿爾特曼接受本·湯普森訪談
https://stratechery.com/2025/an-interview-with-openai-ceo-sam-altman-about-building-a-consumer-tech-company/

[4] adobe analytics 的流量分析報告
https://searchengineland.com/generative-ai-surging-online-shopping-report-453312

[5] 黃仁勛在 gtc 上的發言
https://www.nvidia.com/gtc/keynote/

[6] anthropic 追蹤大模型內部思考過程的研究
https://www.anthropic.com/research/tracing-thoughts-language-model

題圖來源:ai 生成。

科技分類資訊推薦

傳英特爾與台積電達成初步協議,成立合資企業運營晶圓代工廠 - 天天要聞

傳英特爾與台積電達成初步協議,成立合資企業運營晶圓代工廠

4月4日消,據外媒《The information》報道,兩位參與相關討論的知情人士稱,英特爾與台積電已經達成了雙方成立合資企業的初步協議,雙方將共同運營英特爾在美國的晶圓廠。報道稱,美國白宮和商務部官員一直敦促台積電和英特爾達成協議,以解決英特爾的長期危機。而在英特爾和台積電成立的合資公司當中,台積電將擁有合資企...
火狐 Firefox 瀏覽器 2025 年將統一擴展數據收集流程 - 天天要聞

火狐 Firefox 瀏覽器 2025 年將統一擴展數據收集流程

IT之家 4 月 4 日消息,Mozilla 公司昨日(4 月 3 日)發佈公告,宣布將於 2025 年統一火狐 Firefox 瀏覽器擴展的數據收集同意流程,替代開發者當前需自定義的彈窗方案。IT之家援引博文介紹,Mozilla 當前政策要求所有收集用戶數據的擴展必須自定義同意彈窗,明確說明數據類型及用戶選擇的影響。儘管此舉體現了 Firefox 對...
消息稱微軟暫停全球多個數據中心項目 - 天天要聞

消息稱微軟暫停全球多個數據中心項目

IT之家 4 月 4 日消息,據彭博社 4 月 3 日報道,微軟已暫停多個全球數據中心項目。該公司正在放緩北達科他州、威斯康星州、伊利諾伊州、英國、澳大利亞和印度尼西亞的項目開發。報道稱,經濟放緩之際,需求減弱或建設挑戰導致市場決策存在不確定性。熟悉情況的消息人士表示,多個地點的談判已暫停或推遲,加劇了市場猜測。...
腦機接口步入民生領域「加速跑」 這些患者將迎來「奇蹟」利好 - 天天要聞

腦機接口步入民生領域「加速跑」 這些患者將迎來「奇蹟」利好

轉自:中工網央視網消息:腦機接口是在大腦與外部設備之間建立直接連接的通路,能夠實現人與機器或外部環境之間的交互聯通,創造讓癱瘓者行走、讓失語者藉助設備發聲等奇蹟。近日,湖北發佈全國首個腦機接口醫療服務價格,標誌着這一前沿科技加快步入民生領域