算力即服务时代:推理芯片如何成为新的“数字石油”?

2025年05月06日12:10:13 科技 7229

四月下旬,ai芯片领域掀起一阵波澜。资金实力雄厚的初创公司sambanova systems做出了一个重大战略调整,这一调整不仅改变了其自身的发展轨迹,也在整个ai芯片行业引发了广泛关注与深度思考。

sambanova systems自创立之初,便怀揣着为ai训练和推理提供统一架构的宏伟愿景,与众多同行一样,试图在这片充满机遇与挑战的蓝海中开拓属于自己的天地。但就在今年,这家公司毅然放弃了在训练领域的雄心壮志,直接裁员15%,计划将全部精力聚焦于ai推理。而且,在整个ai初创企业里面,sambanova并非个例。

算力即服务时代:推理芯片如何成为新的“数字石油”? - 天天要闻

1.sambanova的训练之路

回顾过往,2017年groq还在大肆宣扬其训练性能,然而到了2022年,却完全将重心转向了推理基准。cerebras cs-1最初主要服务于训练工作负载,但后续的cs-2及更新版本逐渐将重点转移至推理。sambanova一度被视为第一代ai芯片初创公司中坚守训练领域的最后堡垒,如今这一局面也被打破。那么,究竟是什么原因促使这些初创公司纷纷从训练领域转向推理呢?

sambanova systems在其发展历程中,对训练领域给予了高度重视。公司不仅积极发布关于在其硬件上进行训练的技术文章,大肆吹嘘其训练性能,还在官方文档中深入探讨训练相关问题。这种对训练的执着,使得包括作者zach(2019年至2021年期间在sambanova systems工作)在内的众多分析师和外部观察家普遍认为,sambanova凭借单芯片同时满足推理和训练市场需求,相较于竞争对手拥有独特优势。而groq作为最早转向推理领域的初创公司之一,与sambanova形成了鲜明对比。

为了实现高效的训练,sambanova投入了大量的人力、物力和时间。以作者zach为例,在其任职期间,花费了大量精力为nadam优化器实现内核。nadam优化器作为一种基于动量的优化器,在训练大型神经网络方面发挥着关键作用。公司从硬件到软件功能,都围绕训练进行了精心设计和优化。内部和外部信息均表明,对训练的支持是sambanova价值主张的核心组成部分。

2.三大诱因促使战略转型

ai技术的实际应用涵盖两大核心环节——训练(training)与推理(inference)。训练环节聚焦于利用海量数据构建复杂神经网络模型,以赋予其特定功能适配能力。这一过程对计算性能要求严苛,需具备处理大规模数据集的能力,并兼顾通用性,以确保模型能应对多样化场景。而推理环节则侧重于运用已训练成熟的模型,针对新输入数据展开快速运算,直接输出精准结果。

近年来,云端推理在算力分配中的占比持续攀升,成为ai技术落地应用规模扩张的重要标志。据idc数据显示,2022年云端算力资源中,推理占比达58.5%,训练占比为41.5%。至2026年,推理算力占比预计将进一步升至62.2%,训练占比则降至37.8%。这一趋势充分印证,随着ai技术进入大规模落地应用的关键阶段,ai应用场景正加速拓展,人工智能模型逐步迈入全面投产新周期。

算力即服务时代:推理芯片如何成为新的“数字石油”? - 天天要闻

所以,推理市场的巨大潜力是促使其战略转型的重要诱因之一。

推理算力作为ai技术实际应用的关键支撑,承担着利用训练模型对新数据进行实时处理与快速响应的重任。其算力需求与具体应用场景、用户规模及使用频次紧密相关,采用"云端训练,端侧推理"的协同模式——云端完成模型训练后,将模型部署至端侧设备(如智能手机、服务器等),由端侧设备依托模型实现实时推理运算。这种模式既充分发挥云端算力优势,又有效降低端侧设备响应延迟,提升用户体验。

2024年,推理算力需求呈现爆发式增长态势,尤其在生成式ai领域,其需求规模已远超训练算力。idc预测,至2026年,中国智能算力规模将突破每秒十万亿亿次浮点运算(zflops),年复合增长率高达52.3%,这一增长主要由推理端需求释放驱动。在大模型应用场景中,推理算力需求已逐步超越训练算力,成为智能算力增长的核心引擎。

算力即服务时代:推理芯片如何成为新的“数字石油”? - 天天要闻

2025年更被业界视为推理算力需求井喷的元年。以字节跳动豆包模型为例,截至2024年12月中旬,其日均token使用量已突破4万亿,较七个月前增长33倍。这一现象折射出ai技术在各行业渗透率的快速提升,以及由此引发的算力需求指数级增长。展望未来,随着openai o1-preview等新一代模型的商业化落地,推理算力需求将进一步扩张,推动ai技术从垂直场景向全域应用深化发展。

从市场规模角度来看,人工智能推理市场被众多分析师视为具有十倍于训练市场的潜力。这一观点有着直观的逻辑支撑。通常情况下,模型只需训练一次,之后便可进行无数次的推理操作。尽管每次推理的成本远低于整个训练过程,但当对同一模型进行足够多次的推理时,推理成本将成为服务该模型的主要支出。

在未来的发展预期中,如果人工智能领域最终形成少数几个大型模型主导的局面,且每个模型都具备巨大的推理量,那么推理市场将远远超越训练市场。当然,也存在另一种可能性,即许多组织最终选择训练自己的定制模型,那么推理市场或许不会如预期般庞大。但即便如此,从技术层面分析,推理对于ai芯片初创公司而言,仍是一个相对更容易应对的市场。

第二个诱因是推理的技术优势。

在训练模型的过程中,需要运行大量的训练数据,在模型运行期间收集梯度信息,并利用这些梯度更新模型的权重,以实现模型的学习功能。然而,这一过程对内存的需求极高,因为需要缓存梯度以及其他值,如模型的激活值。为了高效进行训练,必须构建一个复杂的内存层次结构,涵盖片上sram、封装内hbm和片外ddr。

但ai初创公司在获取hbm以及将其集成到高性能系统方面面临诸多困难。许多ai芯片,如groq和d-matrix,由于缺乏高效训练大型模型所需的hbm或ddr容量及带宽,难以在训练领域取得突破。相比之下,推理过程则不存在这些问题。在推理过程中,无需存储梯度,激活函数使用后即可丢弃,这大大降低了推理工作负载的内存占用,也简化了仅用于推理的芯片所需的内存层次结构。

此外,芯片间联网也是训练过程中的一大挑战。训练过程中生成的梯度需要在所有参与训练的芯片上同步,这就要求构建一个庞大、复杂且全对全的网络。而推理属于前馈操作,每个芯片仅需与推理流水线中的下一个芯片通信。许多初创公司的ai芯片网络功能有限,难以满足训练所需的全连接性,但足以应对推理工作负载。

算力即服务时代:推理芯片如何成为新的“数字石油”? - 天天要闻

第三个诱因是英伟达在训练领域的霸主地位。

自2012年alexnet发布以来,英伟达凭借cuda赋予gpu的多功能性,使其成为推理和训练领域的首选硬件。过去十年间,英伟达不仅专注于打造针对机器学习工作负载高度优化的芯片,还在内存和网络堆栈方面进行了持续优化,以支持大规模训练和推理。

英伟达硬件在每个芯片上配备了大量的hbm,能够轻松高效地缓存每个训练步骤生成的梯度更新。借助nvlink等纵向扩展技术和infiniband等横向扩展技术,英伟达硬件可以处理在每个训练步骤完成后更新大型神经网络所有权重所需的全对全网络连接。而groq和d-matrix等专注于推理的竞争对手,由于缺乏与英伟达在训练领域竞争所需的内存和网络能力,难以对其构成实质性威胁。

尽管sambanova芯片配备了hbm,并且在服务器级和机架级都拥有点对点网络,但在训练领域仍难以与英伟达抗衡。英伟达在低精度训练方面投入了大量精力,顶级人工智能实验室也针对英伟达低精度训练硬件的特定复杂性,对算法超参数进行了大量调整。从英伟达芯片转向sambanova芯片进行训练,需要修改极其敏感的训练代码,以适应全新的硬件环境,这对于大型gpt - 4规模的模型而言,成本和风险都是巨大的。

3.竞争格局的变化

伴随生成式ai技术商业化浪潮席卷全球,中国推理算力市场正迎来爆发式增长。据idc数据预测,2026年中国智能算力规模将突破每秒十万亿亿次浮点运算(zflops),年复合增长率达52.3%,其中推理算力需求占比预计超六成,成为驱动行业增长的核心引擎。

寒武纪作为国产智算芯片龙头,凭借“云边端一体”战略持续突破算力瓶颈。其最新发布的思元590芯片单卡算力已超越英伟达a100,集群性能达其80%,在字节跳动、阿里、腾讯等互联网大厂的测试中表现亮眼。公司董事长陈天石透露,下一代产品将采用双芯结构对标英伟达h100,性能有望实现翻倍提升。背靠中科院计算所的技术积淀,寒武纪通过三年超37亿元研发投入,构建起覆盖云端训练整机、边缘加速卡及终端ip的完整产品矩阵,2024年高算力产品已批量进入头部互联网厂商供应链。

算力即服务时代:推理芯片如何成为新的“数字石油”? - 天天要闻

华为升腾则依托全栈ai计算基础设施,打造“端边云”协同的场景化解决方案。其atlas系列涵盖模块、板卡、服务器到集群的全角态产品,针对国家区域ai计算中心、城市智能中枢、视频分析等场景推出定制化方案。在深圳、武汉等地的国家ai计算中心项目中,升腾集群以高能效比赋能产业集群智能化升级;而在金融、运营商领域,atlas800训练服务器凭借cann异构计算架构,实现千亿参数大模型在通用处理器上的稳定运行,打破海外技术垄断。

中科曙光依托中科院技术基因,构建起覆盖芯片、服务器、云计算的全产业链生态。子公司海光信息研发的dcu深算二号芯片,性能较首代产品提升超100%,在大数据、ai训练等场景实现商业化部署。其机架式、高密度及核心应用三类服务器,通过与intel、amd、龙芯等cpu的深度适配,在政府、金融、能源等领域形成差异化竞争力。2024年,曙光参股公司推出基于液冷技术的智算中心解决方案,pue值低至1.1,为大规模推理集群提供绿色算力支撑。

市场格局的深刻变革亦催生新玩家入局。首都在线通过“全球云网融合+异构算力平台”战略,为元宇宙、车联网等行业提供存算网一体化渲染方案,其gpu云主机产品已服务数百家ai企业;浪潮信息则以“源2.0-m32”大模型为支点,推出兼容多元算力的开放加速服务器及超级ai交换机,实现推理网络性能1.6倍提升。

算力即服务时代:推理芯片如何成为新的“数字石油”? - 天天要闻

行业分析人士指出,随着美国高端芯片出口限制升级,国产推理芯片正迎来历史性机遇。预计未来3-5年,高性价比的国产ai芯片将在推理端占据主导地位,2025年全球推理芯片市场规模有望突破600亿美元。在这场算力军备赛中,技术创新与生态协同能力将成为企业突围的关键。

从这个角度上看,我们再去看sambanova systems的战略转向,无疑是为整个ai芯片行业敲响了警钟。这一事件表明,即便一家ai芯片初创公司能够在内存和网络能力方面与英伟达展开竞争,也未必能在训练市场取得成功。若想在训练领域挑战英伟达的霸主地位,初创公司必须提供令人瞩目的训练性能,以克服市场对英伟达的依赖惯性。

然而,截至目前,尚未有任何一家公司能够实现这一目标。

从行业发展趋势来看,这一转变可能会导致更多的ai芯片初创公司将重心从训练转向推理。推理市场相对较低的技术门槛和巨大的市场潜力,对初创公司具有极大的吸引力。然而,这也可能引发推理市场的激烈竞争,导致产品同质化严重,利润空间受到挤压。

对于英伟达而言,其在训练领域的绝对主导地位短期内难以撼动。但这也并不意味着英伟达可以高枕无忧。随着技术的不断发展和市场需求的变化,推理市场的重要性日益凸显。英伟达若想在未来的ai芯片市场中保持领先地位,需要在推理领域加大投入,优化产品性能,以应对来自竞争对手的挑战。

sambanova systems的战略调整是ai芯片行业发展过程中的一个重要里程碑。它不仅反映了当前市场的竞争态势和技术发展趋势,也为行业内的其他公司提供了宝贵的经验和教训。在未来的发展中,ai芯片行业将面临更多的机遇和挑战,各公司需要不断调整战略,以适应市场的变化,实现可持续发展。

审校 | 童任

配图/封面来源 | 腾讯新闻库

编辑/出品 | 东针-知识频道(未经允许,禁止转载)

科技分类资讯推荐

【血泪教训】我的5080显卡性能竟然只有别人的一半! - 天天要闻

【血泪教训】我的5080显卡性能竟然只有别人的一半!

本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:期望氢气球一切要从我那块服役多年的3060Ti说起。在陪我持续炼丹、游戏一千多个日夜之后,它终于光荣牺牲了。没有预兆,没有告别,在某次开机发出最后一声哀鸣后就这样离我而去。
2024年全球手机厂商利润排行出炉:苹果一家猛吃8成 - 天天要闻

2024年全球手机厂商利润排行出炉:苹果一家猛吃8成

【CNMO科技消息】据CNMO了解,有博主统计汇总后揭晓了2024年全球手机厂商利润排名,行业呈现“一超多强”格局。苹果以8400亿元净利润稳居榜首,占据全球手机市场83%的利润,总营收达2.8万亿元,彰显其在高端市场的绝对统治力。三星虽以1.5万亿元营收位列第二,但1692亿元净利润同比下滑28%,研发支出高达1797亿元,折射出其...
第九个中国品牌日前夕  这场活动共话“数智升维”新趋势 - 天天要闻

第九个中国品牌日前夕 这场活动共话“数智升维”新趋势

每经记者:黄宗彦 每经编辑:张益铭2025年,数智化时代的演进,正在形成品牌发展的新趋势。人工智能、大数据、视频传播等技术的爆发式迭代,推动品牌价值竞争进入全新维度。从工具赋能到战略升维,从单向传播到生态共创,数智化不再只是企业的“技术命题
Cell重磅:贺建奎基因编辑的抗艾滋病CCR5Δ32缺失的前世今生 - 天天要闻

Cell重磅:贺建奎基因编辑的抗艾滋病CCR5Δ32缺失的前世今生

撰文丨王聪编辑丨王多鱼排版丨水成文1996 年 6 月,当时在纽约大学做博士后的邓宏魁在 Nature 期刊发表论文【1】,首次发现了 CCR5 基因(当时命名为 CC-CKR-5),并证实 CCR5 是 HIV-1 病毒入侵细胞的受体。2 个月后,布鲁塞尔自由大学的研究人员在 Nature 期刊发表论文【2】,证实了携带 CCR5delta32 等位基因纯
终端设备直连卫星政策利好,全市场首只卫星ETF高开高走超2% - 天天要闻

终端设备直连卫星政策利好,全市场首只卫星ETF高开高走超2%

今日早盘,卫星ETF(159206)开盘后持续走高,现涨超2%。成分股中,广和通涨8.65%、创意信息涨7.82%、国光电气涨7.60%等领涨。消息面上,近期,国家互联网信息办公室会同有关部门发布《终端设备直连卫星服务管理规定》,将于2025年6月1日起施行,该《规定》是我国首个专门就终端设备直连卫星出台的规范性文件。行业相关人士...
宇瞻将重返 COMPUTEX 主展场,多项存储新品本月下旬齐亮相 - 天天要闻

宇瞻将重返 COMPUTEX 主展场,多项存储新品本月下旬齐亮相

IT之家 5 月 6 日消息,台湾地区存储模组企业宇瞻 Apacer 宣布今年将重返 COMPUTEX 台北国际电脑展主展场,在南港展览馆一馆 J1217a 展位带来多样化的存储新品。宇瞻此次将展出的新技术与新品阵容丰富,IT之家在此简要列举一下:CoreEnergy 可客制化节能技术;CoreVolt 2 电压稳定技术;基于铠侠-闪迪 BiCS 8 NAN