OpenAI在反扑中反思，与DeepSeek争夺性价比无尽前沿

2025年02月02日01:50:16 游戏 6233

openai全力反扑了，也在开源这件事上开始反思了。

在1月最后一天，openai发布了免费版的o3 mini，技术报告显示它的低配版超过了o1 mini，中高配版本的各项基准测试，基本上都超过了o1。

openai踩着它在去年底定下的deadline如期发布，并没有完全反映出已经改变了的ai竞争游戏规则。o3 mini的价格相比o1 mini下降了63%，比o1下降了93%，但总体性价比仍然没有超过deepseek r1。

ai的竞争，已经不完全是性能的竞争，尤其是在性能领先收窄时，真正的竞争是成本-智能前沿边界之争，即关于性价比平价的竞争。从这一点上来说，以deepseek为代表的中国开源模型，再如阿里巴巴刚刚发布的qwen 2.5 max，目前显得积极主动，它们鼓励自己被用于广泛蒸馏，迅速扩大生态。

可能已经意识到了这一点，openai ceo奥特曼承认：在开放模型权重这一问题上，我们站在了历史错误的一边。

这次o3 mini推出了3个版本，low、medium和high。其中用于快速高级推理的low和擅长编程和逻辑的high版本已经上线，所有chatgpt用户都可使用，付费的plus用户使用次数扩大至原先的三倍至每天150次。

o3-mini的性能得到显著提升。我们先"照本宣科"一下它的基准测试分数：

数学竞赛（aime 2024）

数学：在低推理强度下，openai o3-mini 的表现与 openai o1-mini 相当；在中等推理强度下，o3-mini 的表现与 openai o1 相当。而在高推理强度下，o3-mini 的表现优于 openai o1-mini 和 openai o1。灰色阴影区域表示基于 64 个样本的多数投票（共识）性能。（来源：openai)

博士级科学问题（gpqa diamond)

博士级科学：在博士级生物、化学和物理问题上，openai o3-mini 在低推理强度下的表现优于 openai o1-mini。在高推理强度下，o3-mini 的表现与 openai o1 相当。(来源：openai )

数学学霸级的frontiermath问题

研究级数学：在 frontiermath 测试中，openai o3-mini 在高推理强度下的表现优于其前代模型。当被提示使用 python 工具时，o3-mini 在高推理强度下能在首次尝试中解答超过 32% 的问题，其中包括超过 28% 的高难度（t3）问题。这些数据为初步结果，上方图表展示的是未使用工具或计算器的表现。

编码竞赛（codeforces)

竞赛编程：在 codeforces 竞赛编程测试中，openai o3-mini 随着推理强度的增加，其 elo 评分逐步提升，并在所有推理强度下均优于 openai o1-mini。在中等推理强度下，o3-mini 的表现与 openai o1 相当。(来源：openai )

软件工程（swe verified)

软件工程：在 swebench-verified 测试中，o3-mini 是我们迄今发布的表现最优模型。关于 swebench-verified 在高推理强度下的更多数据点，包括使用开源的 agentless scaffold（39%）和内部工具 scaffold（61%）的结果。（来源：openai)

o1 mini与 o3 mini之间的时延对比