OpenAI o3和o4-mini發布:推理模型的又一次飛躍

2026年03月07日23:52:17 科技 1004

【科技圈De那點事-報道】3月7日消息,OpenAI發布迄今最智能的推理模型,首次實現Agentic工具使用和圖像深度推理。發布了兩款全新的推理模型:o3和o4-mini。這是繼o1系列之後的最新力作,也是OpenAI迄今為止發布的最智能的模型。

OpenAI o3和o4-mini發布:推理模型的又一次飛躍 - 天天要聞

核心亮點:更強大的推理能力

OpenAI o3是旗艦級推理模型,在以下領域創下新的行業標杆:

  • 編程:在Codeforces和SWE-bench基準測試中創下新紀錄
  • 數學與科學:強大的多步推理能力
  • 視覺感知:分析圖像、圖表和圖形的準確率大幅提升

根據OpenAI的數據,o3在困難的真實任務中比o1減少了20%的重大錯誤,尤其在編程、商業諮詢和創意構思方面表現突出。

OpenAI o4-mini則是輕量級快速模型,專為高效率設計。雖然體積更小,但在數學、代碼和視覺任務上表現驚人:

  • 在AIME 2024和2025數學競賽中,o4-mini超越了所有同類模型
  • 當獲得Python解釋器訪問許可權時,o4-mini在AIME 2025上達到了99.5%的準確率

革命性突破:Agentic工具使用

這次發布的最大亮點之一是Agentic Tool Use(代理式工具使用)。

o3和o4-mini首次能夠:

  • 自主調用ChatGPT中的所有工具——包括網路搜索、Python代碼分析、圖像生成
  • 深度整合視覺輸入——模型不僅能"看到"圖像,還能在推理過程中"思考"圖像
  • 多步驟工作流——模型可以根據需要搜索網路多次,編寫和執行代碼,生成可視化圖表

舉個例子:當你問"加州今年夏天的能源使用與去年相比如何?"時,模型可以:

  1. 搜索公共事業數據
  2. 用Python構建預測模型
  3. 生成趨勢圖表
  4. 解釋預測背後的關鍵因素

整個過程通常在不到一分鐘內完成。

圖像推理:不僅是看懂,而是想透

o3和o4-mini首次實現了將圖像直接整合到思維鏈中。

這意味著:

  • 你可以上傳一張白板照片、教科書圖表或手繪草圖
  • 模型會在推理過程中主動處理圖像——旋轉、縮放、變換
  • 即使圖像模糊、顛倒或質量較差,模型也能理解

這種能力在數學問題求解、科學研究和工程設計中有巨大應用潛力。

Codex CLI:終端里的AI編程助手

OpenAI還發布了一個全新的開源工具——Codex CLI

這是一個輕量級的編碼代理,直接在你的終端運行。它能:

  • 訪問你的本地代碼庫
  • 結合o3/o4-mini的多模態推理能力
  • 通過截圖或低保真草圖與模型交互

Codex CLI已在GitHub開源,OpenAI還推出了100萬美元的資助計劃,支持使用Codex CLI和OpenAI模型的開源項目。

社區反應:有驚喜也有擔憂

Hacker News上的開發者們對這兩款模型反應熱烈,但也提出了一些擔憂。

積極反饋:

  • 有開發者表示o3在編寫NixOS配置時表現出色,能夠一次性生成可用的Flake文件
  • 多模態能力讓複雜問題求解變得更加直觀

擔憂的聲音:

  • 幻覺問題:有用戶發現o3在面對小眾技術問題時會"自信地編造"答案。例如,在詢問《最終幻想7》逆向工程的技術細節時,模型編造了不存在的步驟和數值
  • 更令用戶不安的是,模型的"思考過程"顯示它意識到自己不確定,但最終答案卻表現得非常自信
  • 有開發者指出,LLM在niche編程語言(如Haskell、OCaml、Dafny)上仍然經常編造不存在的語法特性

與Gemini 2.5 Pro的比較: 部分用戶認為Gemini 2.5 Pro在某些場景下表現更好,尤其是在承認"我不知道"這方面。當面對無法確定的問題時,Gemini更傾向於給出探索方向而不是編造答案。

可用性與訪問

ChatGPT用戶:

  • Plus、Pro和Team用戶已可以在模型選擇器中使用o3、o4-mini和o4-mini-high
  • 免費用戶可以通過在對話前選擇"Think"模式來試用o4-mini

API開發者:

  • o3和o4-mini已上線Chat Completions API和Responses API
  • 部分開發者需要完成組織驗證才能訪問

未來計劃:

  • o3-pro預計將在幾周內發布,支持完整工具集
  • 目前Pro用戶仍可使用o1-pro

定價與效率

OpenAI表示,o3和o4-mini在大多數實際使用場景中,不僅比前代模型更智能,而且更便宜

在AIME 2025數學競賽中:

  • o3的成本性能曲線嚴格優於o1
  • o4-mini的成本性能曲線嚴格優於o3-mini

這意味著,對於大多數用戶來說,升級到o3/o4-mini不僅能獲得更好的結果,還能節省成本。

總結

OpenAI o3和o4-mini代表了推理模型的新高度。Agentic工具使用、圖像深度推理、以及顯著降低的幻覺率,都讓這些模型更接近真正的"智能助手"。

但社區反饋也提醒我們,即使是目前最先進的模型,在面對小眾領域或需要精確技術細節時,仍然可能出現"自信地胡說八道"的情況。用戶需要保持批判性思維,特別是在關鍵任務中。

隨著o3-pro的即將發布,以及Codex CLI的開源生態建設,OpenAI正在推動AI從"對話工具"向"真正的智能代理"邁進。

科技分類資訊推薦

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相 - 天天要聞

引領科技豪華MPV新風尚 第二代騰勢D9西安車展亮相

兼具宜商氣度與家用溫情的科技豪華旗艦MPV,第二代騰勢D9迎來西安地區正式亮相。新車依託全球新能源MPV冠軍底蘊,以第二代刀片電池、雙閥雲輦-C、天神之眼5.0智駕等核心技術全面升級,兼顧商務體面與家庭舒適,為西北高端用戶帶來一站式全能出行解決方案。
採購禁入!科華數據材料造假被拒門外 - 天天要聞

採購禁入!科華數據材料造假被拒門外

本報(chinatimes.net.cn)記者胡雅文 北京報道這家趕上AI算力風口的公司,因投標材料造假,被相關採購方列入禁入名單兩年,其此前提出的複議申請也被正式駁回。相關採購平台近日發布公告,明確駁回科華數據股份有限公司(下稱「科華數據」,002335.SZ)此前提交的複議申請。早在一年前,科華數據已被認定在「信息通信樞紐...
快評樂道L80:15萬元級買大五座,這波值得沖? - 天天要聞

快評樂道L80:15萬元級買大五座,這波值得沖?

日前,樂道L80正式發布並開啟預售,其整車購買預售價為24.58萬元起,租電購買預售價則低至15.98萬元起。面對大型SUV市場「細分再細分」之競爭趨勢,這款樂道年度重磅新車都有哪些優勢?又能否成為「大五座SUV革新之作」?下面,圈哥就帶大家全方位感受。
成都直擊凱威德:純電全尺寸SUV的張揚與大氣 - 天天要聞

成都直擊凱威德:純電全尺寸SUV的張揚與大氣

4月22日,凱迪拉克以奧斯卡級盛典規格,將上海保利大劇院點亮為璀璨舞台,在品牌代言人倪妮與全場嘉賓的共同見證下,凱迪拉克全尺寸純電公路旗艦——凱威德耀然上市。新車共推出長續航四驅Pro、高性能四驅Ultra兩款配置,官方售價區間為46.88萬-50.88萬元。