梁文鋒署名DeepSeek最新論文,提出新方法突破GPU內存限制

2026年01月13日20:43:09 科學 1073

【文/觀察者網 熊超然】1月12日晚間,中國人工智能(AI)初創公司DeepSeek創始人梁文鋒與北京大學研究人員共同署名發表了一篇技術論文,提出了一種新的模型訓練技術。他們表示,該技術可以通過繞過圖形處理單元(GPU)內存限制,實現「參數的積極擴展」。

香港南華早報》1月13日報道指出,此舉凸顯了DeepSeek在算力相對美國行業領先企業存在差距的情況下,持續專註於最大限度地提高成本效率。與此同時,外界猜測該公司將在今年春節之前發佈一款重要的新模型。

報道稱,這篇技術含量極高的論文將受到中國和美國業內人士的廣泛關注,他們希望從中了解DeepSeek所取得的最新進展。在過去一年中,DeepSeek一直是中國AI領域創新的典範。

梁文鋒署名DeepSeek最新論文,提出新方法突破GPU內存限制 - 天天要聞

DeepSeek與北京大學研究人員合作發表論文,梁文鋒在列 論文截圖

據報道,在這篇題為《基於可擴展查找的條件記憶:大語言模型稀疏性的新維度》(Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models)的最新論文中,介紹了一種名為「Engram」(記憶痕迹)的「條件記憶」(conditional memory)技術。

該技術用以解決擴大AI模型規模時的一個關鍵瓶頸——GPU高帶寬內存(HBM)容量有限的問題。

現有的大型語言模型(LLM)通過計算來檢索基礎信息,而這一過程需要大量的計算能力。然而,研究人員表示,這種方式浪費了寶貴的「序列深度」(sequential depth),這些「序列深度」本可以被分配用於更高層次推理的瑣碎操作。

《南華早報》指出,HBM是中國在AI硬件方面與美國之間最大的差距之一。韓國半導體行業分析機構SemiAnalysis的分析師Ray Wang表示,儘管近年來取得了穩步進展,但中國存儲芯片巨頭長鑫存儲(CXMT)仍然比韓國的三星電子SK海力士以及美國的美光科技等行業領軍者落後數年。

在論文中,DeepSeek和北京大學的研究人員表示,通過將計算與存儲「解耦」,Engram可以讓模型更高效地「查找」這些基礎信息。

他們提到的新技術,還能夠提升模型在處理長上下文(即較長輸入)時的效率,而這正是將AI聊天機械人轉變為現實世界中有用的AI代理所面臨的最大挑戰之一。

研究人員在一個擁有270億個參數的模型中驗證了這一技術,發現它使主要行業基準測試的表現提升了幾個百分點。關鍵在於,這也為模型執行計算需求更高的複雜推理保留了更多容量。

他們寫道:「我們認為條件記憶將成為下一代稀疏模型中不可或缺的建模原語。」研究人員將Engram的潛在影響比作他們自己開發的一種「混合專家」(MoE)技術,該技術使模型規模的擴大無需按比例增加計算量,並且此後已被其他中國競爭對手採用。

梁文鋒署名DeepSeek最新論文,提出新方法突破GPU內存限制 - 天天要聞

DeepSeek創始人梁文鋒 視頻截圖

目前,行業中最大的模型擁有數萬億個參數。開源開發者平台Hugging Face的研究工程師埃利·巴庫奇(Elie Bakouch)在社交媒體上對這篇論文大加稱讚,稱其「在推理和訓練時用硬件上驗證了這一技術」。

據報道,這篇論文列出了14位共同作者,除了梁文鋒之外,還包括北京大學王選計算機研究所助理教授、前微軟亞洲研究院首席研究員張輝帥。

去年年初,DeepSeek發佈的大模型DeepSeek-R1,使用由英偉達H800 GPU驅動的數據中心進行訓練,僅用兩個月就完成了訓練,成本為550萬美元,僅為OpenAI等美國公司所花費金額的一小部分。卻實現了足以匹敵美國頂尖AI模型的效果,震撼業界的同時引發多國關注,尤其是美國。

當地時間1月12日,據英國金融時報》報道,微軟總裁布拉德·史密斯(Brad Smith)警告稱,在爭奪西方以外用戶的競爭中,美國AI公司正被中國競爭對手超越,中國低成本的「開源」模型是一大優勢所在。

他表示,中國AI初創公司DeepSeek的技術在非洲等新興市場快速普及,凸顯了美國公司在全球面臨的競爭。「我們必須認識到,與一年前不同,現在中國擁有一個,而且越來越多地擁有不止一個具有競爭力的開源模型。」

報道指出,史密斯發表這番言論之際,微軟的一項新研究發現,DeepSeek一年前發佈的R1大型語言模型,因其「易用性和低成本」,幫助加速了AI在全球範圍內的普及,尤其是在全球南方國家。這也讓中國在「開源」AI模型的全球市場份額方面超越了美國,這些模型通常可以免費供開發人員使用、修改和集成。

《南華早報》指出,在DeepSeek發佈其R1模型一周年之際,外界對其即將推出一款新的重要模型的期待正在升溫。美國硅谷的新興科技媒體「The Information」當地時間1月9日報道稱,DeepSeek預計將在今年2月中旬推出一款具備強大編程能力的新V4模型。

本文系觀察者網獨家稿件,未經授權,不得轉載。

科學分類資訊推薦

首張嗅覺圖譜問世 或重塑嗅覺形成認知 - 天天要聞

首張嗅覺圖譜問世 或重塑嗅覺形成認知

研究人員以前所未有的細節繪製了小鼠鼻腔中的嗅覺受體分佈圖譜。這一成果顛覆了人們對鼻子如何產生嗅覺的認知。△小鼠鼻腔的顯微鏡橫截面圖像,顯示了鼻腔上皮的解剖結構。圖片來源:Datta Lab4月28日發表於《細胞》的一項研究,揭示了感覺神經元上表達的約1100個嗅覺受體是如何在鼻腔內壁上皮組織中受到嚴格調控的空間位置...
心臟為什麼不會得癌症? - 天天要聞

心臟為什麼不會得癌症?

心臟為什麼不會得癌症?心肌細胞會進行有節律的搏動,並在個體出生後停止增殖,因此,心臟沒有再生能力。近日,意大利的里雅斯特大學醫學院Serena Zacchigna團隊完成的體內癌症模型和離體工程心臟組織實驗表明,心肌細胞搏動所產生的機械力負
暴雨、冰雹要來,廣東天氣明起大反轉!珠海接下來…… - 天天要聞

暴雨、冰雹要來,廣東天氣明起大反轉!珠海接下來……

【來源:珠海發佈】「五一」假期前兩天, 珠海天氣晴好,大家都去哪裡玩了?不過天氣馬上要反轉再反轉了! 廣東明天好天氣要暫時「下線」,局部有大暴雨、小冰雹;珠海明天午後也將有雷雨+10級大風…… 這場雨會持續多久?假期接下來的天氣會怎樣?趕緊
河北衡水:假日邂逅飛行 低空魅力引遊人 - 天天要聞

河北衡水:假日邂逅飛行 低空魅力引遊人

5月2日,位於河北省衡水市的中國航協衡水航空飛行營地,各類飛行表演和低空飛行器展示吸引市民遊客觀賞。中國桃城第四屆「翱翔中國」全國低空無人飛行器大賽暨第二屆京津冀低空飛行器集采會於5月1日至2日在此舉行。圖為遊客近距離參觀飛行器。
可拍原子運動過程 揭秘地下30米的「國之重器」 - 天天要聞

可拍原子運動過程 揭秘地下30米的「國之重器」

來源:央視新聞客戶端坐落在上海張江的硬X射線自由電子激光裝置是「十三五」國家重大科技基礎設施建設規劃優先啟動項目,也是上海(長三角)國際科技創新中心核心空間載體——張江科學城重大科技基礎設施集群的旗艦裝置,是我國實現2035年建成科技強國戰