此次更新提升了模型的推理和复杂任务处理能力,使其性能接近openai的o3模型和谷歌的gemini 2.5 pro。
deepseek r1模型近日完成了一次小版本升级。该公司称,此次升级主要强化了语义理解的精准性、复杂逻辑推理能力以及长文本处理的稳定性。
尽管deepseek未公布更多细节,但网友测评后表示,模型的理解能力显著提升,例如在激活参数部分可以制作交互动画展示,关键信息逻辑也更加清晰。此外,r1的编程能力也大幅提升,有网友称其可以一次性生成1000多行无错误代码,甚至能与“编程新王”claude 4一较高下。
此次升级是deepseek自今年3月发布deepseek-v3-0324模型后的首次更新。v3模型在数学、代码类评测集上超越了gpt-4.5和claude-3.7-sonnet,性价比极高,输入价格仅为claude-3.7-sonnet的1/11、gpt-4.5的1/277,且开源可免费用于商业用途。
hugging face的研究员adina yakefu表示,升级后的deepseek r1在减少幻觉(即提供错误信息)方面也有重大改进,显示出其不仅在追赶,更是在与顶级模型竞争。
deepseek的r1模型自1月发布以来,曾因多项指标优于西方竞争对手而引发全球关注,并导致科技股暴跌。然而,自v3模型发布后,deepseek的热度有所下降,市场更关注其r2模型的发布。此前有消息称,r2将采用混合专家模型(moe),参数量预计达1.2万亿,单位推理成本较gpt-4大幅降低。但截至目前,deepseek仍未正式确认r2的发布时间。
r1推理模型的最新版本r1-0528再次引发了全球媒体的广泛关注。
路透社报道称,此次发布加剧了与美国竞争对手如openai的竞争。在由加州大学伯克利分校、麻省理工学院和康奈尔大学研究人员开发的livecodebench排行榜中,deepseek的r1-0528在代码生成方面仅略低于openai的o4 mini和o3推理模型,但超过了xai的grok 3 mini和阿里巴巴的qwen 3。
cnbc指出,deepseek此次升级模型发布低调,但其推理能力使其能够执行更复杂的任务。《华尔街日报》中文版则提到,deepseek的低成本、高性能r1模型自年初以来吸引了全球目光,推动了中国科技股的上涨,也显示出市场对中国ai能力的乐观预期。