中国变化太快了!——这是全球科技产业共同的心声!
3月24日DeepSeek上线最新的大模型版本DeepSeek-V3,参数量为6850亿,在代码、数学、推理等多个方面的能力再次显著提升,甚至代码能力追平美国Anthropic公司大模型Claude 3.7。
就在同一天,根据彭博社消息,蚂蚁集团通过采用阿里巴巴、华为升腾等国产芯片,结合混合专家模型(MoE)架构,成功将AI大模型训练成本降低20%,单万亿Token训练成本从635万元降至508万元,而性能却能与英伟达H800芯片训练的顶级模型相匹敌。
如上所述,由于DeepSeek的持续进化,国产AI的技术和能力已经接近全球最高水平,就如3月25日李开复所言:中国在某些领域已将其与美国在AI发展方面的差距缩小至只剩三个月,因为DeepSeek等公司已经摸索出如何更有效地利用芯片和应用算法。
但AI芯片始终是困扰国产AI发展的一大障碍,而此次蚂蚁百灵凭借国产芯片训练,实现同等性能突破,还将训练成本再降20%;不仅撕开了西方技术垄断的铁幕,更标志着中国AI产业从“依赖进口”转向“自主可控”的关键转折。
据了解,此次蚂蚁百灵核心算力来自以下国产芯片生态:
1、阿里巴巴自研AI芯片:作为阿里云底层算力的核心,其性能在分布式训练中展现出高并行处理能力;
2、华为升腾系列:升腾910B芯片凭借达芬奇架构和异构计算优势,支撑了MoE模型的复杂路由机制;
3、壁仞科技BR系列:专为大规模AI训练设计,支持高带宽内存与低延迟通信;
4、天数智芯BI系列:通过软硬协同优化,提升低性能设备上的计算效率;
5、寒武纪思元系列:在稀疏计算和动态负载分配上表现突出。
这些芯片通过异构计算平台的整合,构建了一个去中心化的算力网络,实现了“用中端硬件跑高端任务”的逆袭。
另外,值得一提的是,蚂蚁百灵不仅核心算力来自国产芯片,同时还在三大核心技术上实现了突破。具体如下:
1、模型架构动态适配:根据国产芯片特性,调整MoE模型的专家数量与参数分布,例如在低性能设备上减少激活参数比例,避免算力瓶颈;
2、分布式训练框架重构:开源项目DLRover整合多平台框架,结合弹性分布式训练(EDiT)策略,将训练时间缩短66.1%,内存占用降低90%;
3、异常处理与存储优化:通过实时监控系统与自动恢复机制,硬件故障对训练进度的影响被压缩至5%以内;同时,利用FUSE技术将I/O效率提升50%,解决了国产芯片集群的存储瓶颈。
这些创新不仅降低了硬件依赖,更开创了一条“软硬协同”的技术路线——用算法优化弥补硬件性能差距。
这一趋势已引发连锁反应,3月26日英伟达股票暴跌5.7%,市值一夜蒸发约1.2万亿元;与此相反,据说华为升腾、阿里平头哥等国产芯片厂商的订单量激增。正如科大讯飞与华为合作的升腾集群案例所示,中国AI产业正从“单点突破”迈向“生态协同”。
因此,此次蚂蚁百灵在国产芯片的突破,以及开创性的利用“算法优化弥补硬件不足”的技术路线,表明国产AI厂商开始摆脱对英伟达GPU的绝对依赖,转向“AMD+国产”混合方案,甚至推动寒武纪、壁仞等厂商的芯片进入主流供应链。
同时,由于蚂蚁百灵成本上的进一步降低,为中小企业和研究机构能以更低成本接入大模型训练铺平道路,例如Ling-Lite仅需27.5亿激活参数即可达到Llama3.1-8B的水平,大幅降低技术门槛。