OpenAI o3和o4-mini发布：推理模型的又一次飞跃

2026年03月07日23:52:17 科技 1004

【科技圈De那点事-报道】3月7日消息，OpenAI发布迄今最智能的推理模型，首次实现Agentic工具使用和图像深度推理。发布了两款全新的推理模型：o3和o4-mini。这是继o1系列之后的最新力作，也是OpenAI迄今为止发布的最智能的模型。

核心亮点：更强大的推理能力

OpenAI o3是旗舰级推理模型，在以下领域创下新的行业标杆：

编程：在Codeforces和SWE-bench基准测试中创下新纪录
数学与科学：强大的多步推理能力
视觉感知：分析图像、图表和图形的准确率大幅提升

根据OpenAI的数据，o3在困难的真实任务中比o1减少了20%的重大错误，尤其在编程、商业咨询和创意构思方面表现突出。

OpenAI o4-mini则是轻量级快速模型，专为高效率设计。虽然体积更小，但在数学、代码和视觉任务上表现惊人：

在AIME 2024和2025数学竞赛中，o4-mini超越了所有同类模型
当获得Python解释器访问权限时，o4-mini在AIME 2025上达到了99.5%的准确率

革命性突破：Agentic工具使用

这次发布的最大亮点之一是Agentic Tool Use（代理式工具使用）。

o3和o4-mini首次能够：

自主调用ChatGPT中的所有工具——包括网络搜索、Python代码分析、图像生成
深度整合视觉输入——模型不仅能"看到"图像，还能在推理过程中"思考"图像
多步骤工作流——模型可以根据需要搜索网络多次，编写和执行代码，生成可视化图表

举个例子：当你问"加州今年夏天的能源使用与去年相比如何？"时，模型可以：

搜索公共事业数据
用Python构建预测模型
生成趋势图表
解释预测背后的关键因素

整个过程通常在不到一分钟内完成。

图像推理：不仅是看懂，而是想透

o3和o4-mini首次实现了将图像直接整合到思维链中。

这意味着：

你可以上传一张白板照片、教科书图表或手绘草图
模型会在推理过程中主动处理图像——旋转、缩放、变换
即使图像模糊、颠倒或质量较差，模型也能理解

这种能力在数学问题求解、科学研究和工程设计中有巨大应用潜力。

Codex CLI：终端里的AI编程助手

OpenAI还发布了一个全新的开源工具——Codex CLI。

这是一个轻量级的编码代理，直接在你的终端运行。它能：

访问你的本地代码库
结合o3/o4-mini的多模态推理能力
通过截图或低保真草图与模型交互

Codex CLI已在GitHub开源，OpenAI还推出了100万美元的资助计划，支持使用Codex CLI和OpenAI模型的开源项目。

社区反应：有惊喜也有担忧

Hacker News上的开发者们对这两款模型反应热烈，但也提出了一些担忧。

积极反馈：

有开发者表示o3在编写NixOS配置时表现出色，能够一次性生成可用的Flake文件
多模态能力让复杂问题求解变得更加直观

担忧的声音：

幻觉问题：有用户发现o3在面对小众技术问题时会"自信地编造"答案。例如，在询问《最终幻想7》逆向工程的技术细节时，模型编造了不存在的步骤和数值
更令用户不安的是，模型的"思考过程"显示它意识到自己不确定，但最终答案却表现得非常自信
有开发者指出，LLM在niche编程语言（如Haskell、OCaml、Dafny）上仍然经常编造不存在的语法特性

与Gemini 2.5 Pro的比较： 部分用户认为Gemini 2.5 Pro在某些场景下表现更好，尤其是在承认"我不知道"这方面。当面对无法确定的问题时，Gemini更倾向于给出探索方向而不是编造答案。

可用性与访问

ChatGPT用户：

Plus、Pro和Team用户已可以在模型选择器中使用o3、o4-mini和o4-mini-high
免费用户可以通过在对话前选择"Think"模式来试用o4-mini

API开发者：

o3和o4-mini已上线Chat Completions API和Responses API
部分开发者需要完成组织验证才能访问

未来计划：

o3-pro预计将在几周内发布，支持完整工具集
目前Pro用户仍可使用o1-pro

定价与效率

OpenAI表示，o3和o4-mini在大多数实际使用场景中，不仅比前代模型更智能，而且更便宜。

在AIME 2025数学竞赛中：

o3的成本性能曲线严格优于o1
o4-mini的成本性能曲线严格优于o3-mini

这意味着，对于大多数用户来说，升级到o3/o4-mini不仅能获得更好的结果，还能节省成本。

总结

OpenAI o3和o4-mini代表了推理模型的新高度。Agentic工具使用、图像深度推理、以及显著降低的幻觉率，都让这些模型更接近真正的"智能助手"。

但社区反馈也提醒我们，即使是目前最先进的模型，在面对小众领域或需要精确技术细节时，仍然可能出现"自信地胡说八道"的情况。用户需要保持批判性思维，特别是在关键任务中。

随着o3-pro的即将发布，以及Codex CLI的开源生态建设，OpenAI正在推动AI从"对话工具"向"真正的智能代理"迈进。

科技

核心亮点：更强大的推理能力

革命性突破：Agentic工具使用

图像推理：不仅是看懂，而是想透

Codex CLI：终端里的AI编程助手

社区反应：有惊喜也有担忧

可用性与访问

定价与效率

总结

科技分类资讯推荐

科技分类视频推荐

雨姐今天做小鸡炖大鹅，老香了#东北#生活...

雨姐今天在家烤全羊，老香了#生活#东北...

今天跟大家伙一起，简简单单聚个餐#东北#生活#美食...

老爸，你看这是什么！#直播带货 #疯狂小杨哥 #疯狂大杨哥 #红绿灯的黄 #搞笑...

雨姐今天去集市买点蔬菜，囤秋菜#东北#生活...

中国家宴，欢迎大家来雨姐家蹭一顿“简简单单”的鸡黍饭#东北#生活...

东北物价这么低？四人午饭消费51元，饭桌上大成子因啥拒绝当姐夫...

中秋团圆杉杉来迟，记录我的农村生活 #东北#生活...

小杨哥出包她惨背锅！直播曝真相：大公司还要我扛？@cosmosviral...

盘点那些有趣的东北姑娘，性格豪爽的东北女孩，个个都是虎娘们...