OpenAI o3和o4-mini发布:推理模型的又一次飞跃

2026年03月07日23:52:17 科技 1004

【科技圈De那点事-报道】3月7日消息,OpenAI发布迄今最智能的推理模型,首次实现Agentic工具使用和图像深度推理。发布了两款全新的推理模型:o3和o4-mini。这是继o1系列之后的最新力作,也是OpenAI迄今为止发布的最智能的模型。

OpenAI o3和o4-mini发布:推理模型的又一次飞跃 - 天天要闻

核心亮点:更强大的推理能力

OpenAI o3是旗舰级推理模型,在以下领域创下新的行业标杆:

  • 编程:在Codeforces和SWE-bench基准测试中创下新纪录
  • 数学与科学:强大的多步推理能力
  • 视觉感知:分析图像、图表和图形的准确率大幅提升

根据OpenAI的数据,o3在困难的真实任务中比o1减少了20%的重大错误,尤其在编程、商业咨询和创意构思方面表现突出。

OpenAI o4-mini则是轻量级快速模型,专为高效率设计。虽然体积更小,但在数学、代码和视觉任务上表现惊人:

  • 在AIME 2024和2025数学竞赛中,o4-mini超越了所有同类模型
  • 当获得Python解释器访问权限时,o4-mini在AIME 2025上达到了99.5%的准确率

革命性突破:Agentic工具使用

这次发布的最大亮点之一是Agentic Tool Use(代理式工具使用)。

o3和o4-mini首次能够:

  • 自主调用ChatGPT中的所有工具——包括网络搜索、Python代码分析、图像生成
  • 深度整合视觉输入——模型不仅能"看到"图像,还能在推理过程中"思考"图像
  • 多步骤工作流——模型可以根据需要搜索网络多次,编写和执行代码,生成可视化图表

举个例子:当你问"加州今年夏天的能源使用与去年相比如何?"时,模型可以:

  1. 搜索公共事业数据
  2. 用Python构建预测模型
  3. 生成趋势图表
  4. 解释预测背后的关键因素

整个过程通常在不到一分钟内完成。

图像推理:不仅是看懂,而是想透

o3和o4-mini首次实现了将图像直接整合到思维链中。

这意味着:

  • 你可以上传一张白板照片、教科书图表或手绘草图
  • 模型会在推理过程中主动处理图像——旋转、缩放、变换
  • 即使图像模糊、颠倒或质量较差,模型也能理解

这种能力在数学问题求解、科学研究和工程设计中有巨大应用潜力。

Codex CLI:终端里的AI编程助手

OpenAI还发布了一个全新的开源工具——Codex CLI

这是一个轻量级的编码代理,直接在你的终端运行。它能:

  • 访问你的本地代码库
  • 结合o3/o4-mini的多模态推理能力
  • 通过截图或低保真草图与模型交互

Codex CLI已在GitHub开源,OpenAI还推出了100万美元的资助计划,支持使用Codex CLI和OpenAI模型的开源项目。

社区反应:有惊喜也有担忧

Hacker News上的开发者们对这两款模型反应热烈,但也提出了一些担忧。

积极反馈:

  • 有开发者表示o3在编写NixOS配置时表现出色,能够一次性生成可用的Flake文件
  • 多模态能力让复杂问题求解变得更加直观

担忧的声音:

  • 幻觉问题:有用户发现o3在面对小众技术问题时会"自信地编造"答案。例如,在询问《最终幻想7》逆向工程的技术细节时,模型编造了不存在的步骤和数值
  • 更令用户不安的是,模型的"思考过程"显示它意识到自己不确定,但最终答案却表现得非常自信
  • 有开发者指出,LLM在niche编程语言(如Haskell、OCaml、Dafny)上仍然经常编造不存在的语法特性

与Gemini 2.5 Pro的比较: 部分用户认为Gemini 2.5 Pro在某些场景下表现更好,尤其是在承认"我不知道"这方面。当面对无法确定的问题时,Gemini更倾向于给出探索方向而不是编造答案。

可用性与访问

ChatGPT用户:

  • Plus、Pro和Team用户已可以在模型选择器中使用o3、o4-mini和o4-mini-high
  • 免费用户可以通过在对话前选择"Think"模式来试用o4-mini

API开发者:

  • o3和o4-mini已上线Chat Completions API和Responses API
  • 部分开发者需要完成组织验证才能访问

未来计划:

  • o3-pro预计将在几周内发布,支持完整工具集
  • 目前Pro用户仍可使用o1-pro

定价与效率

OpenAI表示,o3和o4-mini在大多数实际使用场景中,不仅比前代模型更智能,而且更便宜

在AIME 2025数学竞赛中:

  • o3的成本性能曲线严格优于o1
  • o4-mini的成本性能曲线严格优于o3-mini

这意味着,对于大多数用户来说,升级到o3/o4-mini不仅能获得更好的结果,还能节省成本。

总结

OpenAI o3和o4-mini代表了推理模型的新高度。Agentic工具使用、图像深度推理、以及显著降低的幻觉率,都让这些模型更接近真正的"智能助手"。

但社区反馈也提醒我们,即使是目前最先进的模型,在面对小众领域或需要精确技术细节时,仍然可能出现"自信地胡说八道"的情况。用户需要保持批判性思维,特别是在关键任务中。

随着o3-pro的即将发布,以及Codex CLI的开源生态建设,OpenAI正在推动AI从"对话工具"向"真正的智能代理"迈进。

科技分类资讯推荐

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相 - 天天要闻

引领科技豪华MPV新风尚 第二代腾势D9西安车展亮相

兼具宜商气度与家用温情的科技豪华旗舰MPV,第二代腾势D9迎来西安地区正式亮相。新车依托全球新能源MPV冠军底蕴,以第二代刀片电池、双阀云辇-C、天神之眼5.0智驾等核心技术全面升级,兼顾商务体面与家庭舒适,为西北高端用户带来一站式全能出行解决方案。
采购禁入!科华数据材料造假被拒门外 - 天天要闻

采购禁入!科华数据材料造假被拒门外

本报(chinatimes.net.cn)记者胡雅文 北京报道这家赶上AI算力风口的公司,因投标材料造假,被相关采购方列入禁入名单两年,其此前提出的复议申请也被正式驳回。相关采购平台近日发布公告,明确驳回科华数据股份有限公司(下称“科华数据”,002335.SZ)此前提交的复议申请。早在一年前,科华数据已被认定在“信息通信枢纽...
快评乐道L80:15万元级买大五座,这波值得冲? - 天天要闻

快评乐道L80:15万元级买大五座,这波值得冲?

日前,乐道L80正式发布并开启预售,其整车购买预售价为24.58万元起,租电购买预售价则低至15.98万元起。面对大型SUV市场“细分再细分”之竞争趋势,这款乐道年度重磅新车都有哪些优势?又能否成为“大五座SUV革新之作”?下面,圈哥就带大家全方位感受。
成都直击凯威德:纯电全尺寸SUV的张扬与大气 - 天天要闻

成都直击凯威德:纯电全尺寸SUV的张扬与大气

4月22日,凯迪拉克以奥斯卡级盛典规格,将上海保利大剧院点亮为璀璨舞台,在品牌代言人倪妮与全场嘉宾的共同见证下,凯迪拉克全尺寸纯电公路旗舰——凯威德耀然上市。新车共推出长续航四驱Pro、高性能四驱Ultra两款配置,官方售价区间为46.88万-50.88万元。