【科技圈De那点事-报道】3月7日消息,OpenAI发布迄今最智能的推理模型,首次实现Agentic工具使用和图像深度推理。发布了两款全新的推理模型:o3和o4-mini。这是继o1系列之后的最新力作,也是OpenAI迄今为止发布的最智能的模型。

核心亮点:更强大的推理能力
OpenAI o3是旗舰级推理模型,在以下领域创下新的行业标杆:
- 编程:在Codeforces和SWE-bench基准测试中创下新纪录
- 数学与科学:强大的多步推理能力
- 视觉感知:分析图像、图表和图形的准确率大幅提升
根据OpenAI的数据,o3在困难的真实任务中比o1减少了20%的重大错误,尤其在编程、商业咨询和创意构思方面表现突出。
OpenAI o4-mini则是轻量级快速模型,专为高效率设计。虽然体积更小,但在数学、代码和视觉任务上表现惊人:
- 在AIME 2024和2025数学竞赛中,o4-mini超越了所有同类模型
- 当获得Python解释器访问权限时,o4-mini在AIME 2025上达到了99.5%的准确率
革命性突破:Agentic工具使用
这次发布的最大亮点之一是Agentic Tool Use(代理式工具使用)。
o3和o4-mini首次能够:
- 自主调用ChatGPT中的所有工具——包括网络搜索、Python代码分析、图像生成
- 深度整合视觉输入——模型不仅能"看到"图像,还能在推理过程中"思考"图像
- 多步骤工作流——模型可以根据需要搜索网络多次,编写和执行代码,生成可视化图表
举个例子:当你问"加州今年夏天的能源使用与去年相比如何?"时,模型可以:
- 搜索公共事业数据
- 用Python构建预测模型
- 生成趋势图表
- 解释预测背后的关键因素
整个过程通常在不到一分钟内完成。
图像推理:不仅是看懂,而是想透
o3和o4-mini首次实现了将图像直接整合到思维链中。
这意味着:
- 你可以上传一张白板照片、教科书图表或手绘草图
- 模型会在推理过程中主动处理图像——旋转、缩放、变换
- 即使图像模糊、颠倒或质量较差,模型也能理解
这种能力在数学问题求解、科学研究和工程设计中有巨大应用潜力。
Codex CLI:终端里的AI编程助手
OpenAI还发布了一个全新的开源工具——Codex CLI。
这是一个轻量级的编码代理,直接在你的终端运行。它能:
- 访问你的本地代码库
- 结合o3/o4-mini的多模态推理能力
- 通过截图或低保真草图与模型交互
Codex CLI已在GitHub开源,OpenAI还推出了100万美元的资助计划,支持使用Codex CLI和OpenAI模型的开源项目。
社区反应:有惊喜也有担忧
Hacker News上的开发者们对这两款模型反应热烈,但也提出了一些担忧。
积极反馈:
- 有开发者表示o3在编写NixOS配置时表现出色,能够一次性生成可用的Flake文件
- 多模态能力让复杂问题求解变得更加直观
担忧的声音:
- 幻觉问题:有用户发现o3在面对小众技术问题时会"自信地编造"答案。例如,在询问《最终幻想7》逆向工程的技术细节时,模型编造了不存在的步骤和数值
- 更令用户不安的是,模型的"思考过程"显示它意识到自己不确定,但最终答案却表现得非常自信
- 有开发者指出,LLM在niche编程语言(如Haskell、OCaml、Dafny)上仍然经常编造不存在的语法特性
与Gemini 2.5 Pro的比较: 部分用户认为Gemini 2.5 Pro在某些场景下表现更好,尤其是在承认"我不知道"这方面。当面对无法确定的问题时,Gemini更倾向于给出探索方向而不是编造答案。
可用性与访问
ChatGPT用户:
- Plus、Pro和Team用户已可以在模型选择器中使用o3、o4-mini和o4-mini-high
- 免费用户可以通过在对话前选择"Think"模式来试用o4-mini
API开发者:
- o3和o4-mini已上线Chat Completions API和Responses API
- 部分开发者需要完成组织验证才能访问
未来计划:
- o3-pro预计将在几周内发布,支持完整工具集
- 目前Pro用户仍可使用o1-pro
定价与效率
OpenAI表示,o3和o4-mini在大多数实际使用场景中,不仅比前代模型更智能,而且更便宜。
在AIME 2025数学竞赛中:
- o3的成本性能曲线严格优于o1
- o4-mini的成本性能曲线严格优于o3-mini
这意味着,对于大多数用户来说,升级到o3/o4-mini不仅能获得更好的结果,还能节省成本。
总结
OpenAI o3和o4-mini代表了推理模型的新高度。Agentic工具使用、图像深度推理、以及显著降低的幻觉率,都让这些模型更接近真正的"智能助手"。
但社区反馈也提醒我们,即使是目前最先进的模型,在面对小众领域或需要精确技术细节时,仍然可能出现"自信地胡说八道"的情况。用户需要保持批判性思维,特别是在关键任务中。
随着o3-pro的即将发布,以及Codex CLI的开源生态建设,OpenAI正在推动AI从"对话工具"向"真正的智能代理"迈进。