openai全力反撲了,也在開源這件事上開始反思了。在1月最後一天,openai發布了免費版的o3 mini,技術報告顯示它的低配版超過了o1 mini,中高配版本的各項基準測試,基本上都超過了o1。openai踩著它在去年底定下的deadline如期發布,並沒有完全反映出已經改變了的ai競爭遊戲規則。o3 mini的價格相比o1 mini下降了63%,比o1下降了93%,但總體性價比仍然沒有超過deepseek r1。ai的競爭,已經不完全是性能的競爭,尤其是在性能領先收窄時,真正的競爭是成本-智能前沿邊界之爭,即關於性價比平價的競爭。從這一點上來說,以deepseek為代表的中國開源模型,再如阿里巴巴剛剛發布的qwen 2.5 max,目前顯得積極主動,它們鼓勵自己被用於廣泛蒸餾,迅速擴大生態。可能已經意識到了這一點,openai ceo奧特曼承認:在開放模型權重這一問題上,我們站在了歷史錯誤的一邊。這次o3 mini推出了3個版本,low、medium和high。其中用於快速高級推理的low和擅長編程和邏輯的high版本已經上線,所有chatgpt用戶都可使用,付費的plus用戶使用次數擴大至原先的三倍至每天150次。o3-mini的性能得到顯著提升。我們先"照本宣科"一下它的基準測試分數:數學:在低推理強度下,openai o3-mini 的表現與 openai o1-mini 相當;在中等推理強度下,o3-mini 的表現與 openai o1 相當。而在高推理強度下,o3-mini 的表現優於 openai o1-mini 和 openai o1。灰色陰影區域表示基於 64 個樣本的多數投票(共識)性能。(來源:openai)
--
博士級科學:在博士級生物、化學和物理問題上,openai o3-mini 在低推理強度下的表現優於 openai o1-mini。在高推理強度下,o3-mini 的表現與 openai o1 相當。(來源:openai )研究級數學:在 frontiermath 測試中,openai o3-mini 在高推理強度下的表現優於其前代模型。當被提示使用 python 工具時,o3-mini 在高推理強度下能在首次嘗試中解答超過 32% 的問題,其中包括超過 28% 的高難度(t3)問題。這些數據為初步結果,上方圖表展示的是未使用工具或計算器的表現。競賽編程:在 codeforces 競賽編程測試中,openai o3-mini 隨著推理強度的增加,其 elo 評分逐步提升,並在所有推理強度下均優於 openai o1-mini。在中等推理強度下,o3-mini 的表現與 openai o1 相當。(來源:openai )軟體工程:在 swebench-verified 測試中,o3-mini 是我們迄今發布的表現最優模型。關於 swebench-verified 在高推理強度下的更多數據點,包括使用開源的 agentless scaffold(39%)和內部工具 scaffold(61%)的結果。(來源:openai)延遲:o3-mini 的首個 token 生成時間比 o1-mini 平均快 2500 毫秒。(來源:openai )openai稱,o3-mini 的發布,標誌著 openai 在推動「高性價比智能邊界」上的又一重要進展。「自 gpt-4 推出以來,每 token 價格已降低 95%——同時依然保持頂級推理能力。隨著人工智慧應用的加速普及,我們將繼續站在前沿,打造兼具智能、效率與安全性的大規模 ai 模型。」openai的強化學習科學家noam brown認為,o3 mini移動了推理模型的價格曲線。但許多分析人士認為,這還不足以匹配 deepseek r1/v3 的價格曲線,它比o1降價25倍之多。deepseek已經把ai的競爭帶入了性價比之戰,而不再是由幾家閉源大模型憑藉先發及資源優勢,掌握著定價權。早在2023年初,開源模型llama的發布,曾經引起一陣「羊駝家族」小模型的熱潮,這些從llama中蒸餾出來的小模型,在一些性能上不輸於基礎大模型,而且能精簡到裝入pc和手機。當時谷歌內部已經有人發出警告,我們沒有護城河,openai也沒有。2024年5月,當deepseek v2發起一場價格戰時,矽谷一些人已經敏銳地感到一股「來自東方的神秘力量」開始出現,但並沒有引起太多的關注。直到deepseek在一個月內接連發布v3 和r1,才以美國ai巨頭暴跌萬億美元的慘劇,宣告美國前沿閉源大模型對ai定價權的崩潰,進入了中美兩極競爭的時代。矽谷ai創業者和投資人shawn wang,根據技術報告估算了o1-o3系列的成本-性能邊界曲線。從這張圖可以看出,deepseek總體上仍處於更前沿的成本-智能邊界,目前的未知數是剛發布的gemini 2.0 flash thinking,它還沒有公布服務的價格。