就在剛剛,老狐發現本土大模型 deepseek 又「崩了」

在昨天(1月26日)就已經崩過一次了,不是我說,deepseek 真得升級一下伺服器架構咯,不過這已進一步佐證了 deepseek 到底有多火。
在這幾天,一款名為 deepseek 的 app 突然躍升至蘋果美國區免費 app 下載排行榜榜首,力壓風頭無兩的 chatgpt,在通用大模型領域,美區可是 chatgpt 的主場,deepseek 憑什麼能反客為主?
可能很多朋友不清楚 deepseek 到底是啥,我可以用一句話來形容它:ai 屆的 pdd。
有多實惠呢?
openai ceo sam altman 透露過,gpt-4 的訓練成本大約 7800 萬美元,尚未完成訓練的 gpt-5 大模型,為時約半年的一輪訓練就消耗了大約 5 億美元、
而 deepseek-v3 大模型訓練成本僅為 558 萬美元,成本低,其 api 服務價格也延續了過往親民的打法。
deepseek 官網的價格表顯示,緩存命中輸入價格僅為 0.1 元/百萬 tokens,緩衝未命中輸入價格為 1 元/百萬 tokens,輸出價格則為 2 元/百萬 tokens,在諸多 ai 大模型中屬於最低的一檔。(註明:1token 約等於 1.5 個漢字或 3 個英文字母)
1 月 20 日正式發布的 deepseek-r1 模型,更是誇張。性能上比肩 o1 的推理能力,並同步開源模型權重,任何人均可自行下載與部署,提供論文詳細說明訓練步驟與竅門,甚至提供了可以運行在手機上的 mini 模型。
更何況,deepseek-r1 可是支持實時聯網、目前唯一支持實時聯網的超級 ai,獲取到的信息都是最新的。
怪不得 openai ceo sam altman 連忙劇透 o3-mini 使用額度,不過你這chatgpt plus 會員每天可查詢 100 次,還是不如免費的 deepseek 來得震撼啊。
免費、好用、更快的 ai 大模型,誰不想要呢?也難怪會在海外市場攪動風雲。
技術有哪些創新
有別於「複製黏貼」,deepseek 從模型結構入手
deepseek 來自國內大模型公司深度求索,有別於絕大多數同行複製 llama 架構的做法,deepseek 創始人梁文鋒此前曾多次強調,deepseek 致力於開闢差異化技術路線,而非複製 openai 的模式,deepseek 必須想出更有效的方法來訓練其模型。
根據 deepseek 公布的 deepseek-r1 信息顯示,其在後訓練階段大規模使用了強化學習技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。
根據 deepseek 對外披露的信息可以發現,其在 mla 多頭潛在注意力機制和自研的 deepseekmoe 結構方面取得了重大進展,這兩種技術設計通過減少訓練計算資源,使 deepseek 模型更具成本效益,也提升了訓練效率。
來自加州伯克利大學在讀博士 jiayi pan 的研究團隊更是成功地以極低的成本(低於 30 美元)復現了 deepseek r1-zero 的關鍵技術——「頓悟時刻」。
「未來或許不需要超大規模的gpu集群了。」在 deepseek 的高性價比模型發布後,openai 創始成員 andrej karpathy 表示。
可以這麼說,deepseek 的成功可以被視為對美國算力出口限制的直接回應,這種外部壓力反而刺激了中國的創新:更少的算力需求,更高效的計算效率。
矽谷ai霸權和神話的破滅
除了自身的優秀保證站穩腳跟,真正讓 deepseek 爆火的推力,可能還是來自同行的 meta。
前不久,美國匿名職場社區 teamblind 上,有 meta 員工直言,deepseek 最近的一系列動作讓 meta 的生成式 ai 團隊陷入了恐慌,前者低成本的訓練工作,讓後者難以解釋自己超高預算的合理性。
meta 的工程師們正在爭分奪秒地分析 deepseek 的技術,試圖從中複製任何可能的技術。

圖靈獎得主、meta 首席 ai 科學家 yann lecun 出來表示,
「中國在 ai 方面正在超越美國」

「開源模型正在超越專有模型」

微軟首席執行官薩蒂亞·納德拉在瑞士達沃斯世界經濟論壇上表示,看到 deepseek 的新模型令人印象非常深刻,他們切實有效地開發出了一款開源模型,在推理計算方面表現出色,且超級計算效率極高,必須非常、非常認真地對待中國的這些進展。
demis hassabis 則表示,「我們需要考慮如何保持西方前沿模型的領先地位,我認為西方仍然領先,但可以肯定的是,中國具有極強的工程和規模化能力。」

國際主流媒體也給予了 deepseek 不小的關注度。
英媒《金融時報》刊文《深度求索等中國初創企業正在挑戰全球ai巨頭》,對於深度求索給予高度評價。文章稱,該公司推出的 v3 模型震驚了國際科技界,其性能可與資金更雄厚的 openai 等美國競爭對手相媲美;r1 模型給人留下了深刻印象,是其進軍ai推理領域的嘗試。
中國ai已經超越美國?
不過,現在就高呼中國 ai 已經超越美國還是有點早了。
就個人使用體驗來看,雖然 deepseek 在邏輯推理方面表現出色,但其功能缺乏是最大的問題,無法創作圖片、無法生成 ppt,對於很多需要用到這類功能的人群來說還是比較難受的
此外,它也不提供智能體可選,功能相對較少。

劉知遠也公開表示,需要警惕輿論從極度悲觀轉向極度樂觀,覺得我們已經全面超越、遙遙領先了,事實上遠遠沒有,用一句話來形容的話:「在別人已經探索出的路上跟隨快跑還是相對容易的,接下來如何在迷霧中開拓新路,才是更大的挑戰。」
要想要一直「火下去」,除了自身的實力,還有對自己品牌的認知,deepseek 最核心的優勢還是得益於演算法上的創新。
deepseek 的 ai 屆拼多多稱號不是白給的,但卷價格的同時,deepseek 未來將要面臨的壓力和挑戰不會少,未來的資金壓力、後續的技術迭代,deepseek 還能取得怎樣的成就,讓我們拭目以待!