DeepSeek危及美國國家安全？火爆海外開源社區，衍生模型超670個

2025年01月29日21:30:18 科技 9865

智東西（公眾號：zhidxcom）

作者 | 徐豫

編輯 | 漠影

智東西1月29日報道，國產ai之光deepseek-r1正快速平替openai、meta、google的模型，成為應用開發者的新選擇。

該模型在知名ai開源社區hugging face上的下載量已超70萬次，日增40%。

▲deepseek-r1躋身hugging face最受喜愛的模型前十名（圖源：clem delangue x主頁）

不過，deepseek強勁的增長勢頭，也引起了美方的高度關注。

今日凌晨cnbc報道稱，美國海軍基於“潛在安全和道德問題”，已要求內部人員禁止使用deepseek模型。

據玉淵譚天消息，昨天，美國多名官員回應deepseek對美國的影響，稱其“蒸餾”技術是“偷竊”，正對其影響開展國家安全調查。

同日，deepseek官網的服務狀態頁面顯示：“近期deepseek線上服務受到大規模惡意攻擊，註冊可能繁忙，請稍等重試。已註冊用戶可以正常登錄，感謝理解和支持。”玉淵譚天向奇安信安全專家諮詢並獨家了解道，deepseek這次受到的網絡攻擊，ip地址都在美國。

截至發稿，在chatbot arena大模型榜單中，deepseek-r1基準測試排名已升至全類別大模型第二，超過openai的o1和o1-mini模型，僅次於anthropic的claude3.5 sonnet，熱度持續攀升。

一、deepseek衍生模型數量日增30%，下載量超320萬

hugging face首席科學官thomas wolf今天接受彭博社採訪時，透露了deepseek-r1開源模型上線一周後增勢強勁，並且該公司有計劃在deepseek-r1的基礎上，自研開源項目open-r1。

hugging face社區內的開發者們正在公開復現deepseek-r1。主頁的135萬個模型中，檢索“deepseek”相關的模型有將近2700個。

hugging face聯合創始人兼ceo clem delangue 1月28日發帖稱，deepseek-r1的衍生模型至少有500種。

thomas wolf今天給出了最新數據，用deepseek-r1搭建的模型至少有670個，累計下載量超320萬次，日增約30%；而deepseek-r1的下載量超過70萬次，日增40%。

據clem delangue透露，deepseek-r1已進入該社區史上最受喜愛的模型前十名之列。

截至1月29日，hugging face社區點贊數排行前十的ai模型依次是：

1、黑森林實驗室的flux.1-dev

2、compvis的stable-diffusion-v1-4

3、stability ai的stable-diffusion-x1-base-1.0

4、meta的llama-3-8b

5、bigscience的bloom

6、stability ai的stable-diffusion-3-medium

7、deepseek的deepseek-r1

8、mistral ai的mixtral-8x7b-instruct-v0.1

9、meta的llama-2-7b

10、meta的llama-2-7b-chat-hf

二、hugging face開搞open r1，要研究透deepseek

跟上眾多開發者的潮流，hugging face也打算基於deepseek-r1復刻一套自己的新模型，即open-r1項目。

據hugging face官網1月28日介紹，open-r1項目將重建deepseek-r1的數據和訓練管道，並在這個過程中驗證其效果、突破其上限，從而增強推理的透明度，以及積累可複製的經驗。

不同開發商的復刻方法不盡相同。針對deepseek-r1遺留的特定推理數據收集方法、未公開模型訓練代碼、訓練時的計算和數據縮放定律等問題，open-r1計劃通過以下步驟補齊這些空白板塊：

首先，從deepseek-r1中提取高質量推理數據集，來複制r1-distill模型。

然後，複製deepseek用於創建r1-zero的純rl管道，這個過程將涉及為數學、推理和代碼任務，整理新的大規模數據集。

最後，可以通過多階段訓練，實現從基礎模型到sft（監督微調），再到rl（強化學習）的模型進階。

▲open-r1復刻deepseek-r1的計劃示意圖（圖源：hugging face官網）

按照thomas wolf的預期，其團隊將在接下來的幾個月內弄清楚這些細節問題，並應用於open-r1項目。

三、谷歌前ceo：全球ai的轉折點已經到來

這場有關deepseek的硝煙，不僅僅籠罩了openai、meta、google等一眾主流模型開發商，使其着手研究如何降低模型的開發成本；也進一步蔓延至中美兩國的ai博弈大局。

不到兩周前，美國商務部工業和安全局（bis）才頒布了芯片出口限制最新規定。其中，bis共拉黑了11家與先進ai技術有關的中國實體。

在the verge昨晚的報道中，openai前政策研究員miles brundage稱，像deepseek-r1這種推理模型通常需要使用大量gpu，會受到美國芯片出口管制的干擾。

在miles brundage看來，deepseek-r1使用了兩個關鍵的優化技巧，一是更高效的預訓練，二是思維鏈推理強化學習，這在一定程度上使其能以更少的gpu數量、更便宜的gpu，推動deepseek-r1實現了更強大的性能。因此，miles brundage稱，美國對gpu實施有效的出口管制，比以往任何時候都更為重要。

不過，openai首席研究官mark chen則傾向於外界誇大了deepseek-r1的成本優勢。他一方面認可了deepseek獨立開發出了openai o1級別的推理模型，但另一方面認為兩者在開發成本上的差距並沒有那麼大，仍然對openai的技術路線持樂觀態度。因此，從某種意義上說，deepseek還是有被先進gpu卡脖子的風險。

另外，有不少觀點認為deepseek-r1的出現將惠及部分美國科技巨頭。

《華爾街日報》1月27日報道稱，deepseek-r1的技術突破意味着，不少美國科技巨頭可能不必花費太多時間、精力和算力，來訓練他們的ai模型。

而且這些模型都是開源的，開發人員可以檢查和修改其代碼，並用它來構建自己的應用程序。這可以幫助更多小企業花費比閉源模式低得多的成本，用上ai，並且開源可以促進更多合作和實驗。

摩根士丹利分析師brian nowak稱，蘋果也將因deepseek等大模型的任何進展中受益匪淺，原因是蘋果“擁有現存最有價值的消費技術分發平台”。

谷歌前ceo eric schmidt昨天告訴《華盛頓郵報》，他認為美國需要加大開源ai研發力度，開發出更多開源模型，鼓勵先進ai實驗室共享訓練方法，以及投資星際之門等ai基礎設施，以應對deepseek的迅速發展。

eric schmidt還一改去年“美國領先”的說辭，在《華盛頓郵報》專欄文章中稱，deepseek的崛起標誌着全球ai“轉折點”的到來，證明了中國可以用更少的資源與大型科技公司競爭。