当算力迈向万卡集群,服务器市场上演角力赛 | ToB产业观察

2024年05月06日15:31:08 科技 5897

当算力迈向万卡集群,服务器市场上演角力赛 | ToB产业观察 - 天天要闻

 图片来源@pixabay

“预训练大模型的发展为实现通用人工智能提供了可能。其中算力一定要有比较大的进步,才可能有下一代。但短期内不太可能是gpu架构本身的明显跨越,而是需要千卡、万卡来适应大模型。”2021年末的一次交流中,某nlp创企ceo对钛媒体表达。

在当时,这家企业已经遇到不少在算力层面的挑战,他们与高校、英伟达、云厂商都在保持密切沟通,希望对方能给予一些技术支持。但对于这些算法领域的专家或创企而言,由于之前的工作并不太涉及硬件领域,“做模型的不懂算力,做算力的不懂模型”的现象非常常见。

“很多情况下需要双方一线面对面沟通,才可能把真正的需求痛点解决掉。”该ceo表示。

三年后,类似于chatgpt、sora的大量生成式ai杀手级应用出现,也正在倒逼更强的算力基础设施进一步升级。上述ceo所面临的问题不仅依然存在,且受到了更上游英伟达等供应商对于gpu及相关专用芯片的限制,带来了一系列连锁反应。对于该nlp企业而言,如果有必要采购国产芯片,那么不同性能、不同场景下的异构芯片“组合”方案将变得日常,而真正挑战在于“怎么组合”。

多位专家近来反复也提及,大模型对算力需求增长已远高于单颗ai芯片性能的增长速度。因此,需要通过芯片的互联组成万卡、甚至数万卡的集群,来提供更高算力。但问题是,建设下一代数据中心,对卡间的网络互联,集群间的互联要求会变得更高,受绿色算力目标的牵制也会更明显,就连英伟达自身也无法回避这一问题。

浪潮信息高级副总裁刘军的观点是,实现更大的算力已经不在芯片,而是在算法层面做创新,比如怎么把算力分布到系统层面上,怎么解决卡间互联问题,怎么让更多的gpu高效协同。

钛媒体注意到,在大模型算法、云、芯片这些对算力基础设施产生不同推力的角色之外,像浪潮信息、新华三等处于产业链中游的主要服务器供应商,纷纷发力生成式ai,围绕算力、算法、数据、互联等范畴布局。

万卡集群军备赛

万卡集群是个什么概念?即使用数万个gpu构建大型人工智能集群,用以训练基础大模型。这种集群有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。

目前看来,包括电信运营商、互联网企业等服务器采购的头部客户在内,他们对ai算力集群的设计起点已经到了千卡级别,蚂蚁集团在去年透露已建成万卡异构算力集群,中国移动不久前透露今年将商用哈尔滨、呼和浩特、贵阳三个自主可控万卡集群,总规模近6万张gpu卡。

但别看万卡集群似乎成为大模型基建军备赛的目标,其建设和维护仍面临诸多挑战。

钛媒体此前分析,大模型场景下,算力需要大规模集中式训练,服务器也无法被切分成单个虚机,单个gpu无法完全容纳整个模型训练,采用分布式训练是必然。这也同时导致了gpu通信问题,由于卡与卡之间存在的通信开销,增加一倍卡并不能带来线性的性能加速。在实际的ai集群环境中,会存在gpu之间的互联带宽受限或ai服务器之间的网络互联带宽有限。

此外,卡数量增多后,过热、故障就会一定比例出现,这往往会导致训练中断、梯度爆炸、算法重跑一遍等,模型训练成本也会居高不下。即便单卡算力再强,不考虑带宽的优化,也会带来极大的算力资源浪费。

在字节跳动年初公布的一份论文中也列举了基于万卡集群训练大模型的挑战,即高效率、高稳定性,并提出将megascale系统部署到数据中心。

能够看到,为了解决这些问题,各大科技公司纷纷投入研发,提出各种在万卡集群上用于训练大模型的方案。浪潮信息董事长彭震在近日与媒体沟通中指出,今天想要建一个能承载万卡集群的机房还是很难的事情,它对基础设施要求非常高。

因而,对于服务器厂商而言,当其身量已不再局限于提供单一硬件产品时,而是综合性解决方案,这些解决方案可能包括服务器、存储、网络、安全等方面,同时还需要针对下游客户的具体需求,提供定制方案。服务器作为算力资源的重要载体,也正成为企业构建万卡集群的核心一环。

当前中国市场局面则是,国家将数字基础设施建设上升到战略层面,全国一体化算力网络建设的布局拉开,服务器的潜力已经引发新一轮的市场热潮。而随着生成式ai的浪潮袭来,通用型服务器已难以满足其带来的日益增长的算力需求,面向ai场景的专用服务器也应运而生,围绕计算能耗的服务器液冷等技术创新日渐成熟,也在驱动客户主动布局该类方案。

根据idc此前公布的两组数据:预计2023年中国人工智能服务器市场规模将达到91亿美元,同比增长82.5%,五年年复合增长率达21.8%;2023全年中国液冷服务器销售额为101亿元,同比增长48.0%,其中95%以上均采用冷板式液冷解决方案。

刘军指出,ai时代只卖算力服务器是不够的,还需要其他手段去承载时代下的用户需求。

迈向万卡集群,要靠生态

不过,能设计并有效运行万卡集群的企业,仍掌握在少数人手中。

举一个最近的合作样板:中国电信天翼云点亮规模达15000卡的算力集群,很快得到人工智能研究院、稀宇科技、百川智能、思必驰科技、亿熵智能科技、澜码科技、赛陇生物科技、天壤智能科技8家国内合作伙伴的入驻。

目前看来,不同芯片在不同场景下取得的效果和效率仍有差别,浪潮信息更希望从算力层提供一个平台,支撑多元算力入驻。对于芯片企业而言,只需要专注在芯片本身而不需要研究互联带宽问题。彭震强调,芯片算力并非是ai发展不起来的直接原因,更多的其实是系统问题。

浪潮信息在将目光聚焦到与其他产业链伙伴,如芯片供应商、软件开发商、系统集成商等合作,以应对当前gpu及相关专用芯片出口限制的影响。以epai品牌下的大模型计算框架tensorglue为例,它针对多种模型,与多款深度学习框架和异构芯片适配,降低算法与应用向异构算力设备迁移的框架适配成本,帮助用户在多模多元算力场景下的试错和适配成本,推进大模型应用研发能力。

近期举办的ipf生态伙伴大会上,浪潮信息公布了几项最新进展:算法方面,发布企业大模型开发平台epai“元脑企智”,加速企业大模型落地应用;算力方面,面向大模型推理场景,联合英特尔发布ai通用服务器;存储方面,发布分布式全闪存储as13000g7,解决大模型训练数据挑战;互联方面,发布超级ai以太网交换机x400,加速大模型训练推理。

从2021年推出“源”大模型为初始,出于对计算的理解,对市场价值创新的探索,以及企业内部数字化转型的考虑,经过多年筹备,浪潮信息形成了从算力、算法、数据、场景的从研发到产品线的全面战略布局。如今,“以应用为导向,以系统为核心”,表达出浪潮信息接下来想要做的事情。

钛媒体还注意到,英伟达的nvlink,正在被服务器厂商提及甚至对标。nvlink提供一种高效可扩展的芯片通信间协议,允许所有gpu同时全速实时通信,就好像整个系统是单个gpu一样。在今年4月的gtc大会上,英伟达也宣布nvlink更新到第五代,包括可扩展至576个gpu,能够解决万亿参数混合专家模型通信瓶颈。

正如钟摆理论的核心是围绕某个中心值有规律摆动。刘军告诉钛媒体,无论是算力、算法,还是数据,浪潮信息在不同时间节点可能都会有不同的侧重,“关键是要走在钟摆的前面,而不是走在后面。”(本文首发于钛媒体app, 作者|杨丽,编辑 | 盖虹达)

科技分类资讯推荐

华为手表推出520主题表,营造极致浪漫美学 - 天天要闻

华为手表推出520主题表,营造极致浪漫美学

5 月确实是一个缤纷多彩的月份,在劳动节和母亲节之后,年轻人们又开始关注起 520 这个谐音“我爱你”的特殊日子,甚至也有网友将其命名为“网络情人节”,“大胆表达爱”已然成为这个特殊日子的一种潮流。也就是在这样的一个特殊日子里,华为倾听到了众多年轻人的心声,在520前夕带来了全新的华为 520 主题表盘,帮助用户...
周鸿祎将做客京东3C数码直播间 畅聊AI行业最新发展 - 天天要闻

周鸿祎将做客京东3C数码直播间 畅聊AI行业最新发展

想知道周鸿祎对AI领域有什么独到的见解?5月20日15点30分,京东集团首席执行官许冉将与360集团创始人周鸿祎,在京东3C数码采销直播间中深入探讨AI技术的最新发展趋势,并分享各自在AI领域的最新成果。值得一提的是,周鸿祎还将在直播间与大家分享为何自己下场做直播的初衷和愿景。
科技为翼,让爱无碍!福田区举办全国助残日主题活动 - 天天要闻

科技为翼,让爱无碍!福田区举办全国助残日主题活动

5月18日,“科技为爱添翼,共享美好生活”福田区庆祝第34次全国助残日主题活动在福田区福康之家举行。本次活动由福田区残疾人联合会主办,深圳新闻网承办,深圳巴士集团、南航深圳分公司、北京郎朗艺术基金会协办。深圳市残联党组成员、一级调研员曹庭国,福田区残联党组书记、理事长罗念纯、南航深圳分公司副总经理蔡文思...
在520用iPhone拍出爱 每个人都可以拥有属于你的瞬间 - 天天要闻

在520用iPhone拍出爱 每个人都可以拥有属于你的瞬间

我们的生活中总有一些珍贵而无法复制的瞬间,智能手机的出现,让我们能够更好地去记录它们,并分享给身边的人。谐音“我爱你”的5月20日,是一个向恋人、家人、朋友甚至自己表达爱意的最佳时刻。为什么不在这一天,拿起我们手边的iPhone去捕捉那些动人心弦的瞬间?
北大一研究院郑州正式开建|雷军驾驶小米汽车疑似遭恶意别车 - 天天要闻

北大一研究院郑州正式开建|雷军驾驶小米汽车疑似遭恶意别车

5月18日,河南首批低空无人机物流配送航线启动仪式在郑州举行。上午10时13分,一架无人机载着用户下单的手机,从河南科技市场数码港启程,用时11分钟即抵达新天地通讯大厦。另外开通的两条航线分别为从郑州公园茂到正弘汇、二砂文创公园到郑州市植物园。今日关注◆北大一研究院郑州正式开建5月18日上午,北京大学郑州新材料...
会议通知:第三届社会遥感地理计算暨中国遥感应用协会社会遥感地理计算专业委员会学术年会(三号通知) - 天天要闻

会议通知:第三届社会遥感地理计算暨中国遥感应用协会社会遥感地理计算专业委员会学术年会(三号通知)

遥感科学、地理信息科学与人文社会科学跨学科交叉融合,催生了社会遥感地理计算这一创新性的研究方向,衍生了遥感经济学、遥感新闻学、医学遥感与环境健康、遥感国际关系分析、时空大数据与犯罪地理、遥感考古与文化遗产智能计算、生态价值遥感监测、历史GIS与遥感分析、文学GIS与语言地理、社交媒体数据分析、空间优化、时空智能计算、数字资产活化等众多分支。
京东 618 苹果 iPhone 15 Pro 到手价 6099 元起,限量现货 - 天天要闻

京东 618 苹果 iPhone 15 Pro 到手价 6099 元起,限量现货

IT之家 5 月 19 日消息,Apple 产品京东自营旗舰店现已开启 618 优惠活动,iPhone 15 Pro 到手价 6099 元起,iPhone 15 Pro Max 到手价 7949 元起,活动时间为 5 月 19 日到 5 月 28 日。IT之家汇总如下:iPhone 15 Pro128GB 6099 元(首发价 7999 元)256GB 69
马斯克最新动作!脑机试验开始招募第二名患者!首试者:“这款设备让我震惊” - 天天要闻

马斯克最新动作!脑机试验开始招募第二名患者!首试者:“这款设备让我震惊”

每经编辑:毕陆名当地时间周五,脑机接口公司Neuralink的创始人埃隆·马斯克宣布,继年初首个参与该公司脑机设备植入实验的患者手术成功100天后,正式开始招募第二个接受脑机植入的患者。图片来源:社交媒体截图Neuralink开发的N1 Implant需要通过手术放置在使用者头骨中,使植入者光凭“意念”就能操作电脑、手机。目前这...
科技成为视障人士的“眼睛” 曾经的不可思议变得容易 - 天天要闻

科技成为视障人士的“眼睛” 曾经的不可思议变得容易

目前全国约有1700万视障人士,越来越多的数字技术也正化身视障人士的“眼睛”。广州视障女孩诺子就在科技的助力下,完成了一个人乘坐交通工具、参加漫展、外出旅游等原来视障人士难以想象的尝试。在广州生活的诺子,六年前因患神经系统罕见病,导致视力一级和肢体三级障碍。她刚刚使用的这款软件,可以通过视频电话的方式,...