OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿

2025年02月02日01:50:16 遊戲 6233

openai全力反撲了,也在開源這件事上開始反思了。
在1月最後一天,openai發布了免費版的o3 mini,技術報告顯示它的低配版超過了o1 mini,中高配版本的各項基準測試,基本上都超過了o1。
openai踩著它在去年底定下的deadline如期發布,並沒有完全反映出已經改變了的ai競爭遊戲規則。o3 mini的價格相比o1 mini下降了63%,比o1下降了93%,但總體性價比仍然沒有超過deepseek r1。
OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿 - 天天要聞
ai的競爭,已經不完全是性能的競爭,尤其是在性能領先收窄時,真正的競爭是成本-智能前沿邊界之爭,即關於性價比平價的競爭。從這一點上來說,以deepseek為代表的中國開源模型,再如阿里巴巴剛剛發布的qwen 2.5 max,目前顯得積極主動,它們鼓勵自己被用於廣泛蒸餾,迅速擴大生態。
可能已經意識到了這一點,openai ceo奧特曼承認:在開放模型權重這一問題上,我們站在了歷史錯誤的一邊。
這次o3 mini推出了3個版本,low、medium和high。其中用於快速高級推理的low和擅長編程和邏輯的high版本已經上線,所有chatgpt用戶都可使用,付費的plus用戶使用次數擴大至原先的三倍至每天150次。
o3-mini的性能得到顯著提升。我們先"照本宣科"一下它的基準測試分數:
數學競賽(aime 2024)
OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿 - 天天要聞

數學:在低推理強度下,openai o3-mini 的表現與 openai o1-mini 相當;在中等推理強度下,o3-mini 的表現與 openai o1 相當。而在高推理強度下,o3-mini 的表現優於 openai o1-mini 和 openai o1。灰色陰影區域表示基於 64 個樣本的多數投票(共識)性能。(來源:openai)

--

博士級科學問題(gpqa diamond)
OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿 - 天天要聞
博士級科學:在博士級生物、化學和物理問題上,openai o3-mini 在低推理強度下的表現優於 openai o1-mini。在高推理強度下,o3-mini 的表現與 openai o1 相當。(來源:openai )
--
數學學霸級的frontiermath問題
OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿 - 天天要聞
研究級數學:在 frontiermath 測試中,openai o3-mini 在高推理強度下的表現優於其前代模型。當被提示使用 python 工具時,o3-mini 在高推理強度下能在首次嘗試中解答超過 32% 的問題,其中包括超過 28% 的高難度(t3)問題。這些數據為初步結果,上方圖表展示的是未使用工具或計算器的表現。
--
編碼競賽(codeforces)
OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿 - 天天要聞
競賽編程:在 codeforces 競賽編程測試中,openai o3-mini 隨著推理強度的增加,其 elo 評分逐步提升,並在所有推理強度下均優於 openai o1-mini。在中等推理強度下,o3-mini 的表現與 openai o1 相當。(來源:openai )
--
軟體工程 (swe verified)
OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿 - 天天要聞
軟體工程:在 swebench-verified 測試中,o3-mini 是我們迄今發布的表現最優模型。關於 swebench-verified 在高推理強度下的更多數據點,包括使用開源的 agentless scaffold(39%)和內部工具 scaffold(61%)的結果。(來源:openai)
--
o1 mini與 o3 mini之間的時延對比
OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿 - 天天要聞
延遲:o3-mini 的首個 token 生成時間比 o1-mini 平均快 2500 毫秒。(來源:openai )
--
openai稱,o3-mini 的發布,標誌著 openai 在推動「高性價比智能邊界」上的又一重要進展。「自 gpt-4 推出以來,每 token 價格已降低 95%——同時依然保持頂級推理能力。隨著人工智慧應用的加速普及,我們將繼續站在前沿,打造兼具智能、效率與安全性的大規模 ai 模型。」
openai的強化學習科學家noam brown認為,o3 mini移動了推理模型的價格曲線。但許多分析人士認為,這還不足以匹配 deepseek r1/v3 的價格曲線,它比o1降價25倍之多。
deepseek已經把ai的競爭帶入了性價比之戰,而不再是由幾家閉源大模型憑藉先發及資源優勢,掌握著定價權。
早在2023年初,開源模型llama的發布,曾經引起一陣「羊駝家族」小模型的熱潮,這些從llama中蒸餾出來的小模型,在一些性能上不輸於基礎大模型,而且能精簡到裝入pc和手機。當時谷歌內部已經有人發出警告,我們沒有護城河,openai也沒有。
2024年5月,當deepseek v2發起一場價格戰時,矽谷一些人已經敏銳地感到一股「來自東方的神秘力量」開始出現,但並沒有引起太多的關注。直到deepseek在一個月內接連發布v3 和r1,才以美國ai巨頭暴跌萬億美元的慘劇,宣告美國前沿閉源大模型對ai定價權的崩潰,進入了中美兩極競爭的時代。
矽谷ai創業者和投資人shawn wang,根據技術報告估算了o1-o3系列的成本-性能邊界曲線。從這張圖可以看出,deepseek總體上仍處於更前沿的成本-智能邊界,目前的未知數是剛發布的gemini 2.0 flash thinking,它還沒有公布服務的價格。

OpenAI在反撲中反思,與DeepSeek爭奪性價比無盡前沿 - 天天要聞

遊戲分類資訊推薦

騰訊元寶AI助手迎來重大升級 雙模型更新同步上線 - 天天要聞

騰訊元寶AI助手迎來重大升級 雙模型更新同步上線

【太平洋科技快訊】3月26日,騰訊旗下的人工智慧助手騰訊元寶宣布完成了兩項重要的模型升級,正式引入了混元T1正式版和DeepSeek V3-0324最新版兩大模型。混元T1正式版:基於新一代快思考模型Turbo S底座升級,在響應速度上實現了顯著提升,能夠實現秒回。該模型採用了混合Mamba架構,特別擅長處理超長文本,如學術論文、策...
【懷舊服】調整公告 | 10人HTOC首領傷害降低 - 天天要聞

【懷舊服】調整公告 | 10人HTOC首領傷害降低

本周四(3月27日)每周例行維護後,「巫妖王之怒」十字軍試煉將進行如下改動:110人英雄難度十字軍的試煉中,諾森德獸群、加拉克蘇斯大王、陣營冠軍、瓦格里雙子造成的傷害降低10%。210人英雄難度十字軍的試煉中,阿努巴拉克造成的傷害降低15%。銀色錦標賽攻略推薦懷舊服經典坐騎獲取攻略推薦鐵血/硬漢/無情第三階段開啟WL...
夢幻西遊:高速須彌搭配巡山小妖變身,角色的傷害能再提升30% - 天天要聞

夢幻西遊:高速須彌搭配巡山小妖變身,角色的傷害能再提升30%

遊戲的意義就在於它能夠給人帶來快樂,大家好,我是小三,每天給大家分享遊戲中的八卦趣事。高速須彌搭配巡山小妖變身,角色的傷害能再提升30%在72變系統上線以後,各位玩家變的卡片只要跟召喚獸搭配的比較合理,是可以讓各位玩家的傷害再次提升的,就比
外星人推出 16/18 英寸Area-51 遊戲本,首發 RTX 5080 顯卡 - 天天要聞

外星人推出 16/18 英寸Area-51 遊戲本,首發 RTX 5080 顯卡

IT之家 3 月 26 日消息,戴爾外星人(Alienware)正式推出 16 英寸和 18 英寸兩款 Area-51 遊戲本,搭載英特爾酷睿 Ultra 9 275HX 處理器和英偉達 RTX 5080 顯卡,成為首批配備 RTX 50 系顯卡的筆記本之一。起售價高達 3199.99 美元(IT之家註:現匯率約合 23239 元人民幣),頂配版達 3799