硅谷AI芯片争霸战:CPU、GPU和NPU的新时代角逐

2024年06月14日09:33:11 科技 1944

文/陈思进

当前,一场激烈的“AI(人工智能)大战”已经在硅谷彻底打响。服务咨询机构Dealroom和Flow Partners最新公布的报告显示,全球科技行业正进入以AI为代表的新创新周期。单美股中微软英伟达苹果谷歌特斯拉等“七姐妹”,每年在AI和云基础设施上投资就高达4000多亿美元(约合3万亿元人民币),覆盖了从AI芯片、大模型,到人形机器人、自动驾驶、AI医疗等领域。

硅谷AI芯片争霸战:CPU、GPU和NPU的新时代角逐 - 天天要闻

6月2日,英伟达创始人兼CEO黄仁勋宣布,英伟达Blackwell芯片现已开始投产。演讲中,黄仁勋宣布,英伟达将在2025年推出Blackwell Ultra AI芯片。下一代AI平台名称为Rubin,该平台将采用HBM4内存。Rubin下一代平台正在开发之中,将于2026年发布,Rubin AI平台将采用HBM4记忆芯片。

据悉,英伟达的第一款Blackwell芯片名为GB200,宣称是目前“全球最强大的芯片”。目前,供应链对GB200寄予厚望,预估2025年出货量有机会突破百万颗,将占英伟达高端GPU出货量的近40%—50%。

我曾在三年多前的《AI(人工智能)的三大基石:数据、算力和算法——漫谈人工智能(番外篇)》(《科普时报》2021年04月23日第3版首发)一文提到,AI的三大基石:数据、算法和算力,缺一不可,而算力的基础就是芯片。

那这篇就介绍一次三大主流芯片:CPUIntel)、GPU(英伟达)、以及NPU(AMD)。

一、CPU(中央处理器Central Processing Unit)是计算机系统的核心组件,负责执行计算和控制任务。它的主要功能包括从内存中获取并执行指令,进行算术和逻辑运算,以及协调计算机各部分的操作。

主要组成部分

算术逻辑单元ALU):执行所有的算术和逻辑运算。

控制单元(CU):解释指令并指导其他部分完成工作。

寄存器:高速存储单元,用于暂时存储数据和指令。

性能指标

CPU性能通常由以下几个指标衡量:

时钟速度:以GHz(千兆赫兹)为单位,表示CPU每秒可以执行的周期数。

核心数量:现代CPU通常有多个核心,每个核心可以独立处理任务,从而提高多任务处理能力。

缓存:临时存储器,用于加快数据访问速度,通常包括L1、L2和L3缓存。

多线程和多核技术

多线程技术:如超线程技术(Hyper-Threading),允许每个物理核心处理多个线程,提高CPU的利用率和性能。

多核技术:在一个CPU芯片上集成多个处理核心,以提高并行处理能力。

通过这些基本信息,可以了解CPU作为计算机系统核心组件的重要性及其工作原理。

Intel:全球最大的CPU制造商之一,以其Core、Xeon等系列著称。

之前著名的Wintel,就是指由微软操作系统Windows与Intel CPU所组成的个人计算机

二、那GPU是什么?

CPU虽然很厉害,但在AI领域,已被GPU所取代。

GPU,全称为图形处理单元,最初设计用于处理图形渲染任务,特别是3D图形渲染。由于图形渲染需要大量的矩阵和矢量运算,GPU被设计成能够高效处理这些并行计算任务。因此,GPU具有大规模并行计算能力,可以同时处理成千上万个小型计算任务。

随着深度学习技术的兴起,研究人员发现GPU的并行计算能力非常适合用于加速深度学习中的训练过程。由于深度学习中的大量计算也可以分解为并行任务,GPU迅速成为深度学习训练的主要计算引擎。

随着人工智能和深度学习技术的飞速发展,计算机处理器的种类和功能也在不断扩展和创新。近年来,NPU(Neural Processing Unit,神经处理单元)逐渐成为计算领域的新热点。本文将介绍什么是NPU,并分析其与GPU(Graphics Processing Unit,图形处理单元)的区别。

三、NPU又是什么?

NPU,全称为神经处理单元,是专门为加速神经网络计算而设计的一种处理器。它们主要用于执行深度学习算法中的矩阵运算和矢量操作。这些运算通常包括卷积神经网络(CNN)、循环神经网络RNN)和其他形式的神经网络中的基本操作,如矩阵乘法、加权求和和激活函数计算等。

NPU的设计目标是优化和加速人工智能应用的执行效率。与传统的CPU和GPU相比,NPU具有以下几个特点:

专用性强:NPU专为神经网络计算优化,能够高效处理深度学习中的特定任务。

高并行性:NPU通常包含大量并行处理单元,可以同时执行大量的计算任务。

低功耗:由于其专用性,NPU的功耗通常比GPU更低,适用于移动设备和嵌入式系统。

四、NPU和GPU的区别

尽管NPU和GPU都能用于加速神经网络的计算,但它们在设计理念和应用场景上存在显著差异。

设计初衷:

GPU:最初为图形渲染设计,后来由于其强大的并行计算能力被广泛应用于深度学习。

NPU:专为神经网络计算设计,目标是优化深度学习的推理和训练过程。

架构:

GPU:包含大量通用的并行计算核心,能够处理多种类型的并行任务,不仅限于神经网络计算。

NPU:通常包含专用的加速模块,如张量处理单元(TPU),并且针对特定神经网络操作进行了优化。

性能:

GPU:由于其通用性,虽然在神经网络计算上性能不如NPU,但在灵活性和通用计算能力上具有优势。

NPU:在执行特定的神经网络计算任务时,效率通常比GPU更高,尤其是在推理阶段。

功耗:

GPU:功耗较高,适合用于数据中心和桌面计算环境中的深度学习训练。

NPU:由于其专用性设计,通常在执行神经网络任务时功耗较低,更适合嵌入式和移动设备。

四、总结

GPU和NPU都是当前人工智能计算的重要工具,各自有着独特的优势和适用场景。NPU通过专用设计提供高效的神经网络计算能力,适合用于推理阶段和低功耗设备。GPU凭借其强大的并行计算能力和灵活性,仍然是深度学习训练的重要计算引擎。随着技术的不断发展,我们可以期待NPU和GPU在各自领域中继续发挥重要作用,为人工智能的发展提供更强大的计算支持。

简写版:硅谷抢滩人工智能处理器

□ 陈思进

美国硅谷目前正经历着一场激烈的“人工智能大战”。服务咨询机构的最新报告披露,全球科技行业正进入一个以人工智能为代表的新创新周期。微软、英伟达、苹果、谷歌、特斯拉等科技巨头每年在人工智能和云基础设施上的投资高达4000多亿美元,覆盖了从处理器、大模型到人形机器人、自动驾驶、人工智能医疗等众多领域。

6月2日,英伟达宣布,Blackwell处理器已正式投产,并计划在2025年推出Blackwell Ultra AI处理器,预计年出货量有望突破百万件,占英伟达高端图形处理器出货量的40%至50%。这一消息引起广泛关注。

人工智能的发展离不开数据、算法和算力,而算力的基础就是处理器。当前,中央处理器、图形处理器和神经网络处理器是三大主流处理器,各有其独特的功能和应用领域。

中央处理器是计算机系统的核心组件,负责执行计算和控制任务。它从内存中获取并执行指令,进行算术和逻辑运算,并协调计算机各部分操作。中央处理器的性能通常由时钟速度、核心数量和缓存等指标来衡量。现代中央处理器通常有多个核心,每个核心可以独立处理任务,从而提高了多任务处理能力。作为全球最大的中央处理器制造商之一,Intel的Core和Xeon系列尤为著名。

然而,在人工智能领域,图形处理器已逐渐取代了中央处理器。图形处理器最初设计用于处理图形渲染任务,尤其是3D图形渲染。由于图形渲染需要大量的矩阵和矢量运算,图形处理器被设计成能高效处理这些并行计算任务的能力。随着深度学习技术的兴起,研究人员发现图形处理器的并行计算能力,非常适用于加速深度学习中的训练过程,成为主要计算引擎。

近年来,神经网络处理器逐渐成为计算领域的新热点。神经网络处理器专门为加速神经网络计算而设计,主要用于执行深度学习算法中的矩阵运算和矢量操作。与传统的中央处理器和图形处理器相比,神经网络处理器具有专用性强、高并行性和低功耗的特点。神经网络处理器专为神经网络计算优化,能高效处理深度学习中的特定任务,其设计目标是优化和加速人工智能应用的执行效率。

尽管神经网络处理器和图形处理器都能用于加速神经网络的计算,但它们在设计理念和应用场景上存在显著差异。

图形处理器最初为图形渲染设计,后来由于强大的并行计算能力被广泛应用于深度学习,而神经网络处理器专为神经网络计算设计,目标是优化深度学习的推理和训练过程。

图形处理器包含大量通用的并行计算核心,不仅限于神经网络计算,还能处理多种类型的并行任务。而神经网络处理器通常包含专用的加速模块,并针对特定神经网络操作进行了优化。

在性能上,图形处理器虽然在神经网络计算上不如神经网络处理器,但在灵活性和通用计算能力上具有优势。神经网络处理器在执行特定的神经网络计算任务时,尤其在推理阶段,效率通常比图形处理器更高。

图形处理器的功耗较高,适用于数据中心和桌面计算环境中的深度学习训练,而神经网络处理器功耗较低,更适合嵌入式和移动设备。

总的来说,图形处理器和神经网络处理器都是当前人工智能计算的重要工具,各自有着独特的优势和适用场景。神经网络处理器通过专用设计提供高效的神经网络计算能力,适用于推理阶段和低功耗设备。而图形处理器凭借其强大的并行计算能力和灵活性,仍然是深度学习训练的重要计算引擎。随着技术的不断发展,我们可以期待神经网络处理器和图形处理器在各自领域中继续发挥重要作用,为人工智能发展提供更强大的计算支持。

2024年06月09日写于多伦多安大略湖畔

(思进注:除注明作者之外,所有文章皆为思进原创。原创文章,谢绝未保留作者相关信息的任何形式的转载。【免责声明】本文仅代表原作者个人的论述和观点,敬请读者自行判断。内容或者数据仅供参考,不构成任何具体投资建议、不作任何商业用途、更不对其真实性负责。投资者据此操作,风险自担。)

PS. 1、(几乎)我所有的书都将渐渐地转为音频(长篇小说均改编为广播剧),(独家)上线喜马拉雅,已上线了25部。其中,多部专辑已进入了各类收听排行榜TOP50:如《归·去·来》广播剧最佳,曾经进入新专辑TOP10(目前在整个喜马拉雅的有声图书进入TOP100,和众多经典名著排在一起),另外,《看懂财经新闻的第一本书》《看懂货币的第一本书》《白话金融》《投资的方法》等进入财经类TOP30、甚至TOP5……请打开链接订阅收听:http://m.ximalaya.com/gatekeeper/h5-listen-list?albumId=75881160&uid=77781964

2、香港书展精选畅销书、科幻长篇小说《超时空拯救》繁体字版新鲜上架,全球发行,音频版新鲜上架:https://m.ximalaya.com/selfshare/album/76256765

3、金融科普之作《看懂金融的第一本书》(再版),销量竟然再次超过了基辛格百岁沉淀之作,有点儿不好意思了(凡尔赛一把) ;同时,繁体字版《白话金融》全球发行,音频版新鲜上架:https://m.ximalaya.com/selfshare/album/81093332

科技分类资讯推荐

清华专家破百年陈规!沪上论坛曝电力革新,陈磊构想太敢了 - 天天要闻

清华专家破百年陈规!沪上论坛曝电力革新,陈磊构想太敢了

听说了吗?清华大学的专家居然说要彻底打破电力系统运行了上百年的规矩!就在上海那场新能源论坛上,陈磊研究员抛出个重磅观点 —— 以后用电不用再看频率脸色,有功功率想咋调就咋调!这事儿要是真能成,咱们家里的空调、电动车充电可就再也不会因为电网不
消费活力释放,上海零售商业形态向“文商旅体展”融合演进 - 天天要闻

消费活力释放,上海零售商业形态向“文商旅体展”融合演进

2025年二季度,在上海市政府经济刺激方案推动下,上海商业市场消费活力逐步释放,但零售物业租赁指标的复苏态势仍显平缓。核心商圈平均租金为1877元/平方米/月,平均出租率为94.71%,整体表现与去年同期持平,其中徐家汇、陆家嘴等商圈凭借成熟商业生态,表现相对突出。但与非核心商圈相比,从存量、新增供应、净吸纳量等指...
OPPO K13 Turbo 系列真机曝光,7 月 21 日发布 - 天天要闻

OPPO K13 Turbo 系列真机曝光,7 月 21 日发布

IT之家 7 月 11 日消息,博主 @i冰宇宙 今日分享了一款带保密壳的新机真机图,配备 RGB 灯效以及主动散热风扇,预计为刚刚官宣的 OPPO K13 Turbo 系列。IT之家注意到,OPPO K13 Turbo 系列将于 7 月 21 日发布,在 GeekBench 6.3.0 中单核成绩为 2156 分,多核成绩为 6652 分,预计搭载高通骁龙
醒醒吧!CEO猛吹AI写95%代码,绩效考核却还在拼程序员手速? - 天天要闻

醒醒吧!CEO猛吹AI写95%代码,绩效考核却还在拼程序员手速?

编译 | Tina在 AI 工具席卷开发圈之后,一批技术老兵的工作方式悄然发生变化。Superhuman (原生 AI 邮件应用)工程负责人 Loic Houssier 正是这场转型的亲历者之一。这位出身数学背景、拥有密码学工程经验的 VP,曾带领团队经历了从大型 B2C 到核心底层架构的复杂挑战。而当 ChatGPT、Claude Code 等工具走进日常