OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿

2025年02月02日01:50:16 游戏 6233

openai全力反扑了,也在开源这件事上开始反思了。
在1月最后一天,openai发布了免费版的o3 mini,技术报告显示它的低配版超过了o1 mini,中高配版本的各项基准测试,基本上都超过了o1。
openai踩着它在去年底定下的deadline如期发布,并没有完全反映出已经改变了的ai竞争游戏规则。o3 mini的价格相比o1 mini下降了63%,比o1下降了93%,但总体性价比仍然没有超过deepseek r1。
OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿 - 天天要闻
ai的竞争,已经不完全是性能的竞争,尤其是在性能领先收窄时,真正的竞争是成本-智能前沿边界之争,即关于性价比平价的竞争。从这一点上来说,以deepseek为代表的中国开源模型,再如阿里巴巴刚刚发布的qwen 2.5 max,目前显得积极主动,它们鼓励自己被用于广泛蒸馏,迅速扩大生态。
可能已经意识到了这一点,openai ceo奥特曼承认:在开放模型权重这一问题上,我们站在了历史错误的一边。
这次o3 mini推出了3个版本,low、medium和high。其中用于快速高级推理的low和擅长编程和逻辑的high版本已经上线,所有chatgpt用户都可使用,付费的plus用户使用次数扩大至原先的三倍至每天150次。
o3-mini的性能得到显著提升。我们先"照本宣科"一下它的基准测试分数:
数学竞赛(aime 2024)
OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿 - 天天要闻

数学:在低推理强度下,openai o3-mini 的表现与 openai o1-mini 相当;在中等推理强度下,o3-mini 的表现与 openai o1 相当。而在高推理强度下,o3-mini 的表现优于 openai o1-mini 和 openai o1。灰色阴影区域表示基于 64 个样本的多数投票(共识)性能。(来源:openai)

--

博士级科学问题(gpqa diamond)
OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿 - 天天要闻
博士级科学:在博士级生物、化学和物理问题上,openai o3-mini 在低推理强度下的表现优于 openai o1-mini。在高推理强度下,o3-mini 的表现与 openai o1 相当。(来源:openai )
--
数学学霸级的frontiermath问题
OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿 - 天天要闻
研究级数学:在 frontiermath 测试中,openai o3-mini 在高推理强度下的表现优于其前代模型。当被提示使用 python 工具时,o3-mini 在高推理强度下能在首次尝试中解答超过 32% 的问题,其中包括超过 28% 的高难度(t3)问题。这些数据为初步结果,上方图表展示的是未使用工具或计算器的表现。
--
编码竞赛(codeforces)
OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿 - 天天要闻
竞赛编程:在 codeforces 竞赛编程测试中,openai o3-mini 随着推理强度的增加,其 elo 评分逐步提升,并在所有推理强度下均优于 openai o1-mini。在中等推理强度下,o3-mini 的表现与 openai o1 相当。(来源:openai )
--
软件工程 (swe verified)
OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿 - 天天要闻
软件工程:在 swebench-verified 测试中,o3-mini 是我们迄今发布的表现最优模型。关于 swebench-verified 在高推理强度下的更多数据点,包括使用开源的 agentless scaffold(39%)和内部工具 scaffold(61%)的结果。(来源:openai)
--
o1 mini与 o3 mini之间的时延对比
OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿 - 天天要闻
延迟:o3-mini 的首个 token 生成时间比 o1-mini 平均快 2500 毫秒。(来源:openai )
--
openai称,o3-mini 的发布,标志着 openai 在推动“高性价比智能边界”上的又一重要进展。“自 gpt-4 推出以来,每 token 价格已降低 95%——同时依然保持顶级推理能力。随着人工智能应用的加速普及,我们将继续站在前沿,打造兼具智能、效率与安全性的大规模 ai 模型。”
openai的强化学习科学家noam brown认为,o3 mini移动了推理模型的价格曲线。但许多分析人士认为,这还不足以匹配 deepseek r1/v3 的价格曲线,它比o1降价25倍之多。
deepseek已经把ai的竞争带入了性价比之战,而不再是由几家闭源大模型凭借先发及资源优势,掌握着定价权。
早在2023年初,开源模型llama的发布,曾经引起一阵“羊驼家族”小模型的热潮,这些从llama中蒸馏出来的小模型,在一些性能上不输于基础大模型,而且能精简到装入pc和手机。当时谷歌内部已经有人发出警告,我们没有护城河,openai也没有。
2024年5月,当deepseek v2发起一场价格战时,硅谷一些人已经敏锐地感到一股“来自东方的神秘力量”开始出现,但并没有引起太多的关注。直到deepseek在一个月内接连发布v3 和r1,才以美国ai巨头暴跌万亿美元的惨剧,宣告美国前沿闭源大模型对ai定价权的崩溃,进入了中美两极竞争的时代。
硅谷ai创业者和投资人shawn wang,根据技术报告估算了o1-o3系列的成本-性能边界曲线。从这张图可以看出,deepseek总体上仍处于更前沿的成本-智能边界,目前的未知数是刚发布的gemini 2.0 flash thinking,它还没有公布服务的价格。

OpenAI在反扑中反思,与DeepSeek争夺性价比无尽前沿 - 天天要闻

游戏分类资讯推荐

上海37岁女子3年给游戏好友转账百万,靠泡面果腹!直到“前妻”来电… - 天天要闻

上海37岁女子3年给游戏好友转账百万,靠泡面果腹!直到“前妻”来电…

游戏里交友?小心有诈!2025年2月21日家住上海徐汇区的陈女士向警方报案称自己可能遭遇了一场骗局而这场骗局的起点要追溯到三年前她在一款手机游戏中的交友经历2021年11月,陈女士在游戏互动中认识了广东的小朱。小朱自称是一家酒吧的老板,平时在游戏中表现得出手阔绰,经常给团队成员发红包活跃气氛,还赞助比赛奖...
Epic 手游喜加一:强化版赛车游戏《MR RACER:Premium》免费领 - 天天要闻

Epic 手游喜加一:强化版赛车游戏《MR RACER:Premium》免费领

IT之家 5 月 9 日消息,玩家现可通过 Epic 游戏商城移动应用免费领取赛车游戏《MR RACER:Premium》,截止时间为 5 月 15 日,全球安卓用户均可领取,iOS 仅限欧盟地区提供,该游戏不保证所有地区均可游玩。在开发商 ChennaiGames 推出的强化版赛车游戏《MR RACER:Premium》中,玩家将坐拥塞满 15 辆梦幻超跑
OPPO Reno14 系列影像玩法有多丰富?“三合一 Live 图神机”登场 - 天天要闻

OPPO Reno14 系列影像玩法有多丰富?“三合一 Live 图神机”登场

从“在我眼里你会发光”到“每一帧都是封面帧”,OPPO Reno系列始终关注着年轻用户的影像需求,在“真实”与“创造”之间来回探索,以求让用户镜头下的照片拥有更加鲜活的生命力。这次全新发布的OPPO Reno14 系列的影像功能里,“生命力”成为了高频词汇,“放大拍也清晰,更有生命力”的高清长焦实况照片、“帧帧都4K,更...