智东西(公众号:zhidxcom)
作者 | 徐豫
编辑 | 漠影
智东西1月29日报道,国产ai之光deepseek-r1正快速平替openai、meta、google的模型,成为应用开发者的新选择。
该模型在知名ai开源社区hugging face上的下载量已超70万次,日增40%。
▲deepseek-r1跻身hugging face最受喜爱的模型前十名(图源:clem delangue x主页)
不过,deepseek强劲的增长势头,也引起了美方的高度关注。
今日凌晨cnbc报道称,美国海军基于“潜在安全和道德问题”,已要求内部人员禁止使用deepseek模型。
据玉渊谭天消息,昨天,美国多名官员回应deepseek对美国的影响,称其“蒸馏”技术是“偷窃”,正对其影响开展国家安全调查。
同日,deepseek官网的服务状态页面显示:“近期deepseek线上服务受到大规模恶意攻击,注册可能繁忙,请稍等重试。已注册用户可以正常登录,感谢理解和支持。”玉渊谭天向奇安信安全专家咨询并独家了解道,deepseek这次受到的网络攻击,ip地址都在美国。
截至发稿,在chatbot arena大模型榜单中,deepseek-r1基准测试排名已升至全类别大模型第二,超过openai的o1和o1-mini模型,仅次于anthropic的claude3.5 sonnet,热度持续攀升。
一、deepseek衍生模型数量日增30%,下载量超320万
hugging face首席科学官thomas wolf今天接受彭博社采访时,透露了deepseek-r1开源模型上线一周后增势强劲,并且该公司有计划在deepseek-r1的基础上,自研开源项目open-r1。
hugging face社区内的开发者们正在公开复现deepseek-r1。主页的135万个模型中,检索“deepseek”相关的模型有将近2700个。
hugging face联合创始人兼ceo clem delangue 1月28日发帖称,deepseek-r1的衍生模型至少有500种。
thomas wolf今天给出了最新数据,用deepseek-r1搭建的模型至少有670个,累计下载量超320万次,日增约30%;而deepseek-r1的下载量超过70万次,日增40%。
据clem delangue透露,deepseek-r1已进入该社区史上最受喜爱的模型前十名之列。
截至1月29日,hugging face社区点赞数排行前十的ai模型依次是:
1、黑森林实验室的flux.1-dev
2、compvis的stable-diffusion-v1-4
3、stability ai的stable-diffusion-x1-base-1.0
4、meta的llama-3-8b
5、bigscience的bloom
6、stability ai的stable-diffusion-3-medium
7、deepseek的deepseek-r1
8、mistral ai的mixtral-8x7b-instruct-v0.1
9、meta的llama-2-7b
10、meta的llama-2-7b-chat-hf
二、hugging face开搞open r1,要研究透deepseek
跟上众多开发者的潮流,hugging face也打算基于deepseek-r1复刻一套自己的新模型,即open-r1项目。
据hugging face官网1月28日介绍,open-r1项目将重建deepseek-r1的数据和训练管道,并在这个过程中验证其效果、突破其上限,从而增强推理的透明度,以及积累可复制的经验。
不同开发商的复刻方法不尽相同。针对deepseek-r1遗留的特定推理数据收集方法、未公开模型训练代码、训练时的计算和数据缩放定律等问题,open-r1计划通过以下步骤补齐这些空白板块:
首先,从deepseek-r1中提取高质量推理数据集,来复制r1-distill模型。
然后,复制deepseek用于创建r1-zero的纯rl管道,这个过程将涉及为数学、推理和代码任务,整理新的大规模数据集。
最后,可以通过多阶段训练,实现从基础模型到sft(监督微调),再到rl(强化学习)的模型进阶。
▲open-r1复刻deepseek-r1的计划示意图(图源:hugging face官网)
按照thomas wolf的预期,其团队将在接下来的几个月内弄清楚这些细节问题,并应用于open-r1项目。
三、谷歌前ceo:全球ai的转折点已经到来
这场有关deepseek的硝烟,不仅仅笼罩了openai、meta、google等一众主流模型开发商,使其着手研究如何降低模型的开发成本;也进一步蔓延至中美两国的ai博弈大局。
不到两周前,美国商务部工业和安全局(bis)才颁布了芯片出口限制最新规定。其中,bis共拉黑了11家与先进ai技术有关的中国实体。
在the verge昨晚的报道中,openai前政策研究员miles brundage称,像deepseek-r1这种推理模型通常需要使用大量gpu,会受到美国芯片出口管制的干扰。
在miles brundage看来,deepseek-r1使用了两个关键的优化技巧,一是更高效的预训练,二是思维链推理强化学习,这在一定程度上使其能以更少的gpu数量、更便宜的gpu,推动deepseek-r1实现了更强大的性能。因此,miles brundage称,美国对gpu实施有效的出口管制,比以往任何时候都更为重要。
不过,openai首席研究官mark chen则倾向于外界夸大了deepseek-r1的成本优势。他一方面认可了deepseek独立开发出了openai o1级别的推理模型,但另一方面认为两者在开发成本上的差距并没有那么大,仍然对openai的技术路线持乐观态度。因此,从某种意义上说,deepseek还是有被先进gpu卡脖子的风险。
另外,有不少观点认为deepseek-r1的出现将惠及部分美国科技巨头。
《华尔街日报》1月27日报道称,deepseek-r1的技术突破意味着,不少美国科技巨头可能不必花费太多时间、精力和算力,来训练他们的ai模型。
而且这些模型都是开源的,开发人员可以检查和修改其代码,并用它来构建自己的应用程序。这可以帮助更多小企业花费比闭源模式低得多的成本,用上ai,并且开源可以促进更多合作和实验。
摩根士丹利分析师brian nowak称,苹果也将因deepseek等大模型的任何进展中受益匪浅,原因是苹果“拥有现存最有价值的消费技术分发平台”。
谷歌前ceo eric schmidt昨天告诉《华盛顿邮报》,他认为美国需要加大开源ai研发力度,开发出更多开源模型,鼓励先进ai实验室共享训练方法,以及投资星际之门等ai基础设施,以应对deepseek的迅速发展。
eric schmidt还一改去年“美国领先”的说辞,在《华盛顿邮报》专栏文章中称,deepseek的崛起标志着全球ai“转折点”的到来,证明了中国可以用更少的资源与大型科技公司竞争。
结语:国产模型出圈新路线,meta、hugging face等争相模仿
目前,有的团队和机构正在研究、复刻deepseek-r1,有的尝试用该模型重塑自家模型,例如meta、hugging face、uc伯克利、港科大等。
同时,2025年开年,deepseek-r1将推理模型竞赛推向新拐点,有望凭借低算力、高性价比的技术路线,开拓国产模型的全球市场。
春节期间deepseek掀起的这场ai风暴,仍在中美乃至全球科技、政金界产生持续影响,并不断发酵。这已经成为改变ai科技产业趋势的风向标事件,智东西将持续跟进相关进展和报道,敬请关注。