OpenAI在反撲中反思，與DeepSeek爭奪性價比無盡前沿

2025年02月02日01:50:16 遊戲 6233

openai全力反撲了，也在開源這件事上開始反思了。

在1月最後一天，openai發布了免費版的o3 mini，技術報告顯示它的低配版超過了o1 mini，中高配版本的各項基準測試，基本上都超過了o1。

openai踩著它在去年底定下的deadline如期發布，並沒有完全反映出已經改變了的ai競爭遊戲規則。o3 mini的價格相比o1 mini下降了63%，比o1下降了93%，但總體性價比仍然沒有超過deepseek r1。

ai的競爭，已經不完全是性能的競爭，尤其是在性能領先收窄時，真正的競爭是成本-智能前沿邊界之爭，即關於性價比平價的競爭。從這一點上來說，以deepseek為代表的中國開源模型，再如阿里巴巴剛剛發布的qwen 2.5 max，目前顯得積極主動，它們鼓勵自己被用於廣泛蒸餾，迅速擴大生態。

可能已經意識到了這一點，openai ceo奧特曼承認：在開放模型權重這一問題上，我們站在了歷史錯誤的一邊。

這次o3 mini推出了3個版本，low、medium和high。其中用於快速高級推理的low和擅長編程和邏輯的high版本已經上線，所有chatgpt用戶都可使用，付費的plus用戶使用次數擴大至原先的三倍至每天150次。

o3-mini的性能得到顯著提升。我們先"照本宣科"一下它的基準測試分數：

數學競賽（aime 2024）

數學：在低推理強度下，openai o3-mini 的表現與 openai o1-mini 相當；在中等推理強度下，o3-mini 的表現與 openai o1 相當。而在高推理強度下，o3-mini 的表現優於 openai o1-mini 和 openai o1。灰色陰影區域表示基於 64 個樣本的多數投票（共識）性能。（來源：openai)

博士級科學問題（gpqa diamond)

博士級科學：在博士級生物、化學和物理問題上，openai o3-mini 在低推理強度下的表現優於 openai o1-mini。在高推理強度下，o3-mini 的表現與 openai o1 相當。(來源：openai )

數學學霸級的frontiermath問題

研究級數學：在 frontiermath 測試中，openai o3-mini 在高推理強度下的表現優於其前代模型。當被提示使用 python 工具時，o3-mini 在高推理強度下能在首次嘗試中解答超過 32% 的問題，其中包括超過 28% 的高難度（t3）問題。這些數據為初步結果，上方圖表展示的是未使用工具或計算器的表現。

編碼競賽（codeforces)

競賽編程：在 codeforces 競賽編程測試中，openai o3-mini 隨著推理強度的增加，其 elo 評分逐步提升，並在所有推理強度下均優於 openai o1-mini。在中等推理強度下，o3-mini 的表現與 openai o1 相當。(來源：openai )

軟體工程（swe verified)

軟體工程：在 swebench-verified 測試中，o3-mini 是我們迄今發布的表現最優模型。關於 swebench-verified 在高推理強度下的更多數據點，包括使用開源的 agentless scaffold（39%）和內部工具 scaffold（61%）的結果。（來源：openai)

o1 mini與 o3 mini之間的時延對比