OpenAI o3和o4-mini發佈：推理模型的又一次飛躍

2026年03月07日23:52:17 科技 1004

【科技圈De那點事-報道】3月7日消息，OpenAI發佈迄今最智能的推理模型，首次實現Agentic工具使用和圖像深度推理。發佈了兩款全新的推理模型：o3和o4-mini。這是繼o1系列之後的最新力作，也是OpenAI迄今為止發佈的最智能的模型。

核心亮點：更強大的推理能力

OpenAI o3是旗艦級推理模型，在以下領域創下新的行業標杆：

編程：在Codeforces和SWE-bench基準測試中創下新紀錄
數學與科學：強大的多步推理能力
視覺感知：分析圖像、圖表和圖形的準確率大幅提升

根據OpenAI的數據，o3在困難的真實任務中比o1減少了20%的重大錯誤，尤其在編程、商業諮詢和創意構思方面表現突出。

OpenAI o4-mini則是輕量級快速模型，專為高效率設計。雖然體積更小，但在數學、代碼和視覺任務上表現驚人：

在AIME 2024和2025數學競賽中，o4-mini超越了所有同類模型
當獲得Python解釋器訪問權限時，o4-mini在AIME 2025上達到了99.5%的準確率

革命性突破：Agentic工具使用

這次發佈的最大亮點之一是Agentic Tool Use（代理式工具使用）。

o3和o4-mini首次能夠：

自主調用ChatGPT中的所有工具——包括網絡搜索、Python代碼分析、圖像生成
深度整合視覺輸入——模型不僅能"看到"圖像，還能在推理過程中"思考"圖像
多步驟工作流——模型可以根據需要搜索網絡多次，編寫和執行代碼，生成可視化圖表

舉個例子：當你問"加州今年夏天的能源使用與去年相比如何？"時，模型可以：

搜索公共事業數據
用Python構建預測模型
生成趨勢圖表
解釋預測背後的關鍵因素

整個過程通常在不到一分鐘內完成。

圖像推理：不僅是看懂，而是想透

o3和o4-mini首次實現了將圖像直接整合到思維鏈中。

這意味着：

你可以上傳一張白板照片、教科書圖表或手繪草圖
模型會在推理過程中主動處理圖像——旋轉、縮放、變換
即使圖像模糊、顛倒或質量較差，模型也能理解

這種能力在數學問題求解、科學研究和工程設計中有巨大應用潛力。

Codex CLI：終端里的AI編程助手

OpenAI還發佈了一個全新的開源工具——Codex CLI。

這是一個輕量級的編碼代理，直接在你的終端運行。它能：

訪問你的本地代碼庫
結合o3/o4-mini的多模態推理能力
通過截圖或低保真草圖與模型交互

Codex CLI已在GitHub開源，OpenAI還推出了100萬美元的資助計劃，支持使用Codex CLI和OpenAI模型的開源項目。

社區反應：有驚喜也有擔憂

Hacker News上的開發者們對這兩款模型反應熱烈，但也提出了一些擔憂。

積極反饋：

有開發者表示o3在編寫NixOS配置時表現出色，能夠一次性生成可用的Flake文件
多模態能力讓複雜問題求解變得更加直觀

擔憂的聲音：

幻覺問題：有用戶發現o3在面對小眾技術問題時會"自信地編造"答案。例如，在詢問《最終幻想7》逆向工程的技術細節時，模型編造了不存在的步驟和數值
更令用戶不安的是，模型的"思考過程"顯示它意識到自己不確定，但最終答案卻表現得非常自信
有開發者指出，LLM在niche編程語言（如Haskell、OCaml、Dafny）上仍然經常編造不存在的語法特性

與Gemini 2.5 Pro的比較： 部分用戶認為Gemini 2.5 Pro在某些場景下表現更好，尤其是在承認"我不知道"這方面。當面對無法確定的問題時，Gemini更傾向於給出探索方向而不是編造答案。

可用性與訪問

ChatGPT用戶：

Plus、Pro和Team用戶已可以在模型選擇器中使用o3、o4-mini和o4-mini-high
免費用戶可以通過在對話前選擇"Think"模式來試用o4-mini

API開發者：

o3和o4-mini已上線Chat Completions API和Responses API
部分開發者需要完成組織驗證才能訪問

未來計劃：

o3-pro預計將在幾周內發佈，支持完整工具集
目前Pro用戶仍可使用o1-pro

定價與效率

OpenAI表示，o3和o4-mini在大多數實際使用場景中，不僅比前代模型更智能，而且更便宜。

在AIME 2025數學競賽中：

o3的成本性能曲線嚴格優於o1
o4-mini的成本性能曲線嚴格優於o3-mini

這意味着，對於大多數用戶來說，升級到o3/o4-mini不僅能獲得更好的結果，還能節省成本。

總結

OpenAI o3和o4-mini代表了推理模型的新高度。Agentic工具使用、圖像深度推理、以及顯著降低的幻覺率，都讓這些模型更接近真正的"智能助手"。

但社區反饋也提醒我們，即使是目前最先進的模型，在面對小眾領域或需要精確技術細節時，仍然可能出現"自信地胡說八道"的情況。用戶需要保持批判性思維，特別是在關鍵任務中。

隨着o3-pro的即將發佈，以及Codex CLI的開源生態建設，OpenAI正在推動AI從"對話工具"向"真正的智能代理"邁進。

科技

核心亮點：更強大的推理能力

革命性突破：Agentic工具使用

圖像推理：不僅是看懂，而是想透

Codex CLI：終端里的AI編程助手

社區反應：有驚喜也有擔憂

可用性與訪問

定價與效率

總結

科技分類資訊推薦

科技分類視頻推薦

雨姐今天做小雞燉大鵝，老香了#東北#生活...

雨姐今天在家烤全羊，老香了#生活#東北...

今天跟大傢伙一起，簡簡單單聚個餐#東北#生活#美食...

老爸，你看這是什麼！#直播帶貨 #瘋狂小楊哥 #瘋狂大楊哥 #紅綠燈的黃 #搞笑...

雨姐今天去集市買點蔬菜，囤秋菜#東北#生活...

中國家宴，歡迎大家來雨姐家蹭一頓「簡簡單單」的雞黍飯#東北#生活...

東北物價這麼低？四人午飯消費51元，飯桌上大成子因啥拒絕當姐夫...

中秋團圓杉杉來遲，記錄我的農村生活 #東北#生活...

小楊哥出包她慘背鍋！直播曝真相：大公司還要我扛？@cosmosviral...

盤點那些有趣的東北姑娘，性格豪爽的東北女孩，個個都是虎娘們...