【科技圈De那點事-報道】3月7日消息,OpenAI發佈迄今最智能的推理模型,首次實現Agentic工具使用和圖像深度推理。發佈了兩款全新的推理模型:o3和o4-mini。這是繼o1系列之後的最新力作,也是OpenAI迄今為止發佈的最智能的模型。

核心亮點:更強大的推理能力
OpenAI o3是旗艦級推理模型,在以下領域創下新的行業標杆:
- 編程:在Codeforces和SWE-bench基準測試中創下新紀錄
- 數學與科學:強大的多步推理能力
- 視覺感知:分析圖像、圖表和圖形的準確率大幅提升
根據OpenAI的數據,o3在困難的真實任務中比o1減少了20%的重大錯誤,尤其在編程、商業諮詢和創意構思方面表現突出。
OpenAI o4-mini則是輕量級快速模型,專為高效率設計。雖然體積更小,但在數學、代碼和視覺任務上表現驚人:
- 在AIME 2024和2025數學競賽中,o4-mini超越了所有同類模型
- 當獲得Python解釋器訪問權限時,o4-mini在AIME 2025上達到了99.5%的準確率
革命性突破:Agentic工具使用
這次發佈的最大亮點之一是Agentic Tool Use(代理式工具使用)。
o3和o4-mini首次能夠:
- 自主調用ChatGPT中的所有工具——包括網絡搜索、Python代碼分析、圖像生成
- 深度整合視覺輸入——模型不僅能"看到"圖像,還能在推理過程中"思考"圖像
- 多步驟工作流——模型可以根據需要搜索網絡多次,編寫和執行代碼,生成可視化圖表
舉個例子:當你問"加州今年夏天的能源使用與去年相比如何?"時,模型可以:
- 搜索公共事業數據
- 用Python構建預測模型
- 生成趨勢圖表
- 解釋預測背後的關鍵因素
整個過程通常在不到一分鐘內完成。
圖像推理:不僅是看懂,而是想透
o3和o4-mini首次實現了將圖像直接整合到思維鏈中。
這意味着:
- 你可以上傳一張白板照片、教科書圖表或手繪草圖
- 模型會在推理過程中主動處理圖像——旋轉、縮放、變換
- 即使圖像模糊、顛倒或質量較差,模型也能理解
這種能力在數學問題求解、科學研究和工程設計中有巨大應用潛力。
Codex CLI:終端里的AI編程助手
OpenAI還發佈了一個全新的開源工具——Codex CLI。
這是一個輕量級的編碼代理,直接在你的終端運行。它能:
- 訪問你的本地代碼庫
- 結合o3/o4-mini的多模態推理能力
- 通過截圖或低保真草圖與模型交互
Codex CLI已在GitHub開源,OpenAI還推出了100萬美元的資助計劃,支持使用Codex CLI和OpenAI模型的開源項目。
社區反應:有驚喜也有擔憂
Hacker News上的開發者們對這兩款模型反應熱烈,但也提出了一些擔憂。
積極反饋:
- 有開發者表示o3在編寫NixOS配置時表現出色,能夠一次性生成可用的Flake文件
- 多模態能力讓複雜問題求解變得更加直觀
擔憂的聲音:
- 幻覺問題:有用戶發現o3在面對小眾技術問題時會"自信地編造"答案。例如,在詢問《最終幻想7》逆向工程的技術細節時,模型編造了不存在的步驟和數值
- 更令用戶不安的是,模型的"思考過程"顯示它意識到自己不確定,但最終答案卻表現得非常自信
- 有開發者指出,LLM在niche編程語言(如Haskell、OCaml、Dafny)上仍然經常編造不存在的語法特性
與Gemini 2.5 Pro的比較: 部分用戶認為Gemini 2.5 Pro在某些場景下表現更好,尤其是在承認"我不知道"這方面。當面對無法確定的問題時,Gemini更傾向於給出探索方向而不是編造答案。
可用性與訪問
ChatGPT用戶:
- Plus、Pro和Team用戶已可以在模型選擇器中使用o3、o4-mini和o4-mini-high
- 免費用戶可以通過在對話前選擇"Think"模式來試用o4-mini
API開發者:
- o3和o4-mini已上線Chat Completions API和Responses API
- 部分開發者需要完成組織驗證才能訪問
未來計劃:
- o3-pro預計將在幾周內發佈,支持完整工具集
- 目前Pro用戶仍可使用o1-pro
定價與效率
OpenAI表示,o3和o4-mini在大多數實際使用場景中,不僅比前代模型更智能,而且更便宜。
在AIME 2025數學競賽中:
- o3的成本性能曲線嚴格優於o1
- o4-mini的成本性能曲線嚴格優於o3-mini
這意味着,對於大多數用戶來說,升級到o3/o4-mini不僅能獲得更好的結果,還能節省成本。
總結
OpenAI o3和o4-mini代表了推理模型的新高度。Agentic工具使用、圖像深度推理、以及顯著降低的幻覺率,都讓這些模型更接近真正的"智能助手"。
但社區反饋也提醒我們,即使是目前最先進的模型,在面對小眾領域或需要精確技術細節時,仍然可能出現"自信地胡說八道"的情況。用戶需要保持批判性思維,特別是在關鍵任務中。
隨着o3-pro的即將發佈,以及Codex CLI的開源生態建設,OpenAI正在推動AI從"對話工具"向"真正的智能代理"邁進。