梁文锋署名DeepSeek最新论文，提出新方法突破GPU内存限制

2026年01月13日20:43:09 科学 1073

【文/观察者网熊超然】1月12日晚间，中国人工智能（AI）初创公司DeepSeek创始人梁文锋与北京大学研究人员共同署名发表了一篇技术论文，提出了一种新的模型训练技术。他们表示，该技术可以通过绕过图形处理单元（GPU）内存限制，实现“参数的积极扩展”。

香港《南华早报》1月13日报道指出，此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下，持续专注于最大限度地提高成本效率。与此同时，外界猜测该公司将在今年春节之前发布一款重要的新模型。

报道称，这篇技术含量极高的论文将受到中国和美国业内人士的广泛关注，他们希望从中了解DeepSeek所取得的最新进展。在过去一年中，DeepSeek一直是中国AI领域创新的典范。

DeepSeek与北京大学研究人员合作发表论文，梁文锋在列论文截图

据报道，在这篇题为《基于可扩展查找的条件记忆：大语言模型稀疏性的新维度》（Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models）的最新论文中，介绍了一种名为“Engram”（记忆痕迹）的“条件记忆”（conditional memory）技术。

该技术用以解决扩大AI模型规模时的一个关键瓶颈——GPU高带宽内存（HBM）容量有限的问题。

现有的大型语言模型（LLM）通过计算来检索基础信息，而这一过程需要大量的计算能力。然而，研究人员表示，这种方式浪费了宝贵的“序列深度”（sequential depth），这些“序列深度”本可以被分配用于更高层次推理的琐碎操作。

《南华早报》指出，HBM是中国在AI硬件方面与美国之间最大的差距之一。韩国半导体行业分析机构SemiAnalysis的分析师Ray Wang表示，尽管近年来取得了稳步进展，但中国存储芯片巨头长鑫存储（CXMT）仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年。

在论文中，DeepSeek和北京大学的研究人员表示，通过将计算与存储“解耦”，Engram可以让模型更高效地“查找”这些基础信息。

他们提到的新技术，还能够提升模型在处理长上下文（即较长输入）时的效率，而这正是将AI聊天机器人转变为现实世界中有用的AI代理所面临的最大挑战之一。

研究人员在一个拥有270亿个参数的模型中验证了这一技术，发现它使主要行业基准测试的表现提升了几个百分点。关键在于，这也为模型执行计算需求更高的复杂推理保留了更多容量。

他们写道：“我们认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语。”研究人员将Engram的潜在影响比作他们自己开发的一种“混合专家”（MoE）技术，该技术使模型规模的扩大无需按比例增加计算量，并且此后已被其他中国竞争对手采用。