OpenAI在反撲中反思，與DeepSeek爭奪性價比無盡前沿

分類：遊戲

瀏覽數：6233

2025-02-02

openai全力反撲了，也在開源這件事上開始反思了。

在1月最後一天，openai發布了免費版的o3 mini，技術報告顯示它的低配版超過了o1 mini，中高配版本的各項基準測試，基本上都超過了o1。

openai踩著它在去年底定下的deadline如期發布，並沒有完全反映出已經改變了的ai競爭遊戲規則。o3 mini的價格相比o1 mini下降了63%，比o1下降了93%，但總體性價比仍然沒有超過deepseek r1。

ai的競爭，已經不完全是性能的競爭，尤其是在性能領先收窄時，真正的競爭是成本-智能前沿邊界之爭，即關於性價比平價的競爭。從這一點上來說，以deepseek為代表的中國開源模型，再如阿里巴巴剛剛發布的qwen 2.5 max，目前顯得積極主動，它們鼓勵自己被用於廣泛蒸餾，迅速擴大生態。

可能已經意識到了這一點，openai ceo奧特曼承認：在開放模型權重這一問題上，我們站在了歷史錯誤的一邊。

這次o3 mini推出了3個版本，low、medium和high。其中用於快速高級推理的low和擅長編程和邏輯的high版本已經上線，所有chatgpt用戶都可使用，付費的plus用戶使用次數擴大至原先的三倍至每天150次。

o3-mini的性能得到顯著提升。我們先"照本宣科"一下它的基準測試分數：

數學競賽（aime 2024）

數學：在低推理強度下，openai o3-mini 的表現與 openai o1-mini 相當；在中等推理強度下，o3-mini 的表現與 openai o1 相當。而在高推理強度下，o3-mini 的表現優於 openai o1-mini 和 openai o1。灰色陰影區域表示基於 64 個樣本的多數投票（共識）性能。（來源：openai)

博士級科學問題（gpqa diamond)

博士級科學：在博士級生物、化學和物理問題上，openai o3-mini 在低推理強度下的表現優於 openai o1-mini。在高推理強度下，o3-mini 的表現與 openai o1 相當。(來源：openai )

數學學霸級的frontiermath問題

研究級數學：在 frontiermath 測試中，openai o3-mini 在高推理強度下的表現優於其前代模型。當被提示使用 python 工具時，o3-mini 在高推理強度下能在首次嘗試中解答超過 32% 的問題，其中包括超過 28% 的高難度（t3）問題。這些數據為初步結果，上方圖表展示的是未使用工具或計算器的表現。

編碼競賽（codeforces)

競賽編程：在 codeforces 競賽編程測試中，openai o3-mini 隨著推理強度的增加，其 elo 評分逐步提升，並在所有推理強度下均優於 openai o1-mini。在中等推理強度下，o3-mini 的表現與 openai o1 相當。(來源：openai )

軟體工程（swe verified)

軟體工程：在 swebench-verified 測試中，o3-mini 是我們迄今發布的表現最優模型。關於 swebench-verified 在高推理強度下的更多數據點，包括使用開源的 agentless scaffold（39%）和內部工具 scaffold（61%）的結果。（來源：openai)

o1 mini與 o3 mini之間的時延對比

延遲：o3-mini 的首個 token 生成時間比 o1-mini 平均快 2500 毫秒。（來源：openai )

openai稱，o3-mini 的發布，標誌著 openai 在推動「高性價比智能邊界」上的又一重要進展。「自 gpt-4 推出以來，每 token 價格已降低 95%——同時依然保持頂級推理能力。隨著人工智慧應用的加速普及，我們將繼續站在前沿，打造兼具智能、效率與安全性的大規模 ai 模型。」

openai的強化學習科學家noam brown認為，o3 mini移動了推理模型的價格曲線。但許多分析人士認為，這還不足以匹配 deepseek r1/v3 的價格曲線，它比o1降價25倍之多。

deepseek已經把ai的競爭帶入了性價比之戰，而不再是由幾家閉源大模型憑藉先發及資源優勢，掌握著定價權。

早在2023年初，開源模型llama的發布，曾經引起一陣「羊駝家族」小模型的熱潮，這些從llama中蒸餾出來的小模型，在一些性能上不輸於基礎大模型，而且能精簡到裝入pc和手機。當時谷歌內部已經有人發出警告，我們沒有護城河，openai也沒有。

2024年5月，當deepseek v2發起一場價格戰時，矽谷一些人已經敏銳地感到一股「來自東方的神秘力量」開始出現，但並沒有引起太多的關注。直到deepseek在一個月內接連發布v3 和r1，才以美國ai巨頭暴跌萬億美元的慘劇，宣告美國前沿閉源大模型對ai定價權的崩潰，進入了中美兩極競爭的時代。

矽谷ai創業者和投資人shawn wang，根據技術報告估算了o1-o3系列的成本-性能邊界曲線。從這張圖可以看出，deepseek總體上仍處於更前沿的成本-智能邊界，目前的未知數是剛發布的gemini 2.0 flash thinking，它還沒有公布服務的價格。

遊戲分類資訊推薦