硅谷AI芯片争霸战:CPU、GPU和NPU的新时代角逐

2024年06月14日09:33:11 科技 1944

文/陈思进

当前,一场激烈的“AI(人工智能)大战”已经在硅谷彻底打响。服务咨询机构Dealroom和Flow Partners最新公布的报告显示,全球科技行业正进入以AI为代表的新创新周期。单美股中微软英伟达苹果谷歌特斯拉等“七姐妹”,每年在AI和云基础设施上投资就高达4000多亿美元(约合3万亿元人民币),覆盖了从AI芯片、大模型,到人形机器人、自动驾驶、AI医疗等领域。

硅谷AI芯片争霸战:CPU、GPU和NPU的新时代角逐 - 天天要闻

6月2日,英伟达创始人兼CEO黄仁勋宣布,英伟达Blackwell芯片现已开始投产。演讲中,黄仁勋宣布,英伟达将在2025年推出Blackwell Ultra AI芯片。下一代AI平台名称为Rubin,该平台将采用HBM4内存。Rubin下一代平台正在开发之中,将于2026年发布,Rubin AI平台将采用HBM4记忆芯片。

据悉,英伟达的第一款Blackwell芯片名为GB200,宣称是目前“全球最强大的芯片”。目前,供应链对GB200寄予厚望,预估2025年出货量有机会突破百万颗,将占英伟达高端GPU出货量的近40%—50%。

我曾在三年多前的《AI(人工智能)的三大基石:数据、算力和算法——漫谈人工智能(番外篇)》(《科普时报》2021年04月23日第3版首发)一文提到,AI的三大基石:数据、算法和算力,缺一不可,而算力的基础就是芯片。

那这篇就介绍一次三大主流芯片:CPUIntel)、GPU(英伟达)、以及NPU(AMD)。

一、CPU(中央处理器Central Processing Unit)是计算机系统的核心组件,负责执行计算和控制任务。它的主要功能包括从内存中获取并执行指令,进行算术和逻辑运算,以及协调计算机各部分的操作。

主要组成部分

算术逻辑单元ALU):执行所有的算术和逻辑运算。

控制单元(CU):解释指令并指导其他部分完成工作。

寄存器:高速存储单元,用于暂时存储数据和指令。

性能指标

CPU性能通常由以下几个指标衡量:

时钟速度:以GHz(千兆赫兹)为单位,表示CPU每秒可以执行的周期数。

核心数量:现代CPU通常有多个核心,每个核心可以独立处理任务,从而提高多任务处理能力。

缓存:临时存储器,用于加快数据访问速度,通常包括L1、L2和L3缓存。

多线程和多核技术

多线程技术:如超线程技术(Hyper-Threading),允许每个物理核心处理多个线程,提高CPU的利用率和性能。

多核技术:在一个CPU芯片上集成多个处理核心,以提高并行处理能力。

通过这些基本信息,可以了解CPU作为计算机系统核心组件的重要性及其工作原理。

Intel:全球最大的CPU制造商之一,以其Core、Xeon等系列著称。

之前著名的Wintel,就是指由微软操作系统Windows与Intel CPU所组成的个人计算机

二、那GPU是什么?

CPU虽然很厉害,但在AI领域,已被GPU所取代。

GPU,全称为图形处理单元,最初设计用于处理图形渲染任务,特别是3D图形渲染。由于图形渲染需要大量的矩阵和矢量运算,GPU被设计成能够高效处理这些并行计算任务。因此,GPU具有大规模并行计算能力,可以同时处理成千上万个小型计算任务。

随着深度学习技术的兴起,研究人员发现GPU的并行计算能力非常适合用于加速深度学习中的训练过程。由于深度学习中的大量计算也可以分解为并行任务,GPU迅速成为深度学习训练的主要计算引擎。

随着人工智能和深度学习技术的飞速发展,计算机处理器的种类和功能也在不断扩展和创新。近年来,NPU(Neural Processing Unit,神经处理单元)逐渐成为计算领域的新热点。本文将介绍什么是NPU,并分析其与GPU(Graphics Processing Unit,图形处理单元)的区别。

三、NPU又是什么?

NPU,全称为神经处理单元,是专门为加速神经网络计算而设计的一种处理器。它们主要用于执行深度学习算法中的矩阵运算和矢量操作。这些运算通常包括卷积神经网络(CNN)、循环神经网络RNN)和其他形式的神经网络中的基本操作,如矩阵乘法、加权求和和激活函数计算等。

NPU的设计目标是优化和加速人工智能应用的执行效率。与传统的CPU和GPU相比,NPU具有以下几个特点:

专用性强:NPU专为神经网络计算优化,能够高效处理深度学习中的特定任务。

高并行性:NPU通常包含大量并行处理单元,可以同时执行大量的计算任务。

低功耗:由于其专用性,NPU的功耗通常比GPU更低,适用于移动设备和嵌入式系统。

四、NPU和GPU的区别

尽管NPU和GPU都能用于加速神经网络的计算,但它们在设计理念和应用场景上存在显著差异。

设计初衷:

GPU:最初为图形渲染设计,后来由于其强大的并行计算能力被广泛应用于深度学习。

NPU:专为神经网络计算设计,目标是优化深度学习的推理和训练过程。

架构:

GPU:包含大量通用的并行计算核心,能够处理多种类型的并行任务,不仅限于神经网络计算。

NPU:通常包含专用的加速模块,如张量处理单元(TPU),并且针对特定神经网络操作进行了优化。

性能:

GPU:由于其通用性,虽然在神经网络计算上性能不如NPU,但在灵活性和通用计算能力上具有优势。

NPU:在执行特定的神经网络计算任务时,效率通常比GPU更高,尤其是在推理阶段。

功耗:

GPU:功耗较高,适合用于数据中心和桌面计算环境中的深度学习训练。

NPU:由于其专用性设计,通常在执行神经网络任务时功耗较低,更适合嵌入式和移动设备。

四、总结

GPU和NPU都是当前人工智能计算的重要工具,各自有着独特的优势和适用场景。NPU通过专用设计提供高效的神经网络计算能力,适合用于推理阶段和低功耗设备。GPU凭借其强大的并行计算能力和灵活性,仍然是深度学习训练的重要计算引擎。随着技术的不断发展,我们可以期待NPU和GPU在各自领域中继续发挥重要作用,为人工智能的发展提供更强大的计算支持。

简写版:硅谷抢滩人工智能处理器

□ 陈思进

美国硅谷目前正经历着一场激烈的“人工智能大战”。服务咨询机构的最新报告披露,全球科技行业正进入一个以人工智能为代表的新创新周期。微软、英伟达、苹果、谷歌、特斯拉等科技巨头每年在人工智能和云基础设施上的投资高达4000多亿美元,覆盖了从处理器、大模型到人形机器人、自动驾驶、人工智能医疗等众多领域。

6月2日,英伟达宣布,Blackwell处理器已正式投产,并计划在2025年推出Blackwell Ultra AI处理器,预计年出货量有望突破百万件,占英伟达高端图形处理器出货量的40%至50%。这一消息引起广泛关注。

人工智能的发展离不开数据、算法和算力,而算力的基础就是处理器。当前,中央处理器、图形处理器和神经网络处理器是三大主流处理器,各有其独特的功能和应用领域。

中央处理器是计算机系统的核心组件,负责执行计算和控制任务。它从内存中获取并执行指令,进行算术和逻辑运算,并协调计算机各部分操作。中央处理器的性能通常由时钟速度、核心数量和缓存等指标来衡量。现代中央处理器通常有多个核心,每个核心可以独立处理任务,从而提高了多任务处理能力。作为全球最大的中央处理器制造商之一,Intel的Core和Xeon系列尤为著名。

然而,在人工智能领域,图形处理器已逐渐取代了中央处理器。图形处理器最初设计用于处理图形渲染任务,尤其是3D图形渲染。由于图形渲染需要大量的矩阵和矢量运算,图形处理器被设计成能高效处理这些并行计算任务的能力。随着深度学习技术的兴起,研究人员发现图形处理器的并行计算能力,非常适用于加速深度学习中的训练过程,成为主要计算引擎。

近年来,神经网络处理器逐渐成为计算领域的新热点。神经网络处理器专门为加速神经网络计算而设计,主要用于执行深度学习算法中的矩阵运算和矢量操作。与传统的中央处理器和图形处理器相比,神经网络处理器具有专用性强、高并行性和低功耗的特点。神经网络处理器专为神经网络计算优化,能高效处理深度学习中的特定任务,其设计目标是优化和加速人工智能应用的执行效率。

尽管神经网络处理器和图形处理器都能用于加速神经网络的计算,但它们在设计理念和应用场景上存在显著差异。

图形处理器最初为图形渲染设计,后来由于强大的并行计算能力被广泛应用于深度学习,而神经网络处理器专为神经网络计算设计,目标是优化深度学习的推理和训练过程。

图形处理器包含大量通用的并行计算核心,不仅限于神经网络计算,还能处理多种类型的并行任务。而神经网络处理器通常包含专用的加速模块,并针对特定神经网络操作进行了优化。

在性能上,图形处理器虽然在神经网络计算上不如神经网络处理器,但在灵活性和通用计算能力上具有优势。神经网络处理器在执行特定的神经网络计算任务时,尤其在推理阶段,效率通常比图形处理器更高。

图形处理器的功耗较高,适用于数据中心和桌面计算环境中的深度学习训练,而神经网络处理器功耗较低,更适合嵌入式和移动设备。

总的来说,图形处理器和神经网络处理器都是当前人工智能计算的重要工具,各自有着独特的优势和适用场景。神经网络处理器通过专用设计提供高效的神经网络计算能力,适用于推理阶段和低功耗设备。而图形处理器凭借其强大的并行计算能力和灵活性,仍然是深度学习训练的重要计算引擎。随着技术的不断发展,我们可以期待神经网络处理器和图形处理器在各自领域中继续发挥重要作用,为人工智能发展提供更强大的计算支持。

2024年06月09日写于多伦多安大略湖畔

(思进注:除注明作者之外,所有文章皆为思进原创。原创文章,谢绝未保留作者相关信息的任何形式的转载。【免责声明】本文仅代表原作者个人的论述和观点,敬请读者自行判断。内容或者数据仅供参考,不构成任何具体投资建议、不作任何商业用途、更不对其真实性负责。投资者据此操作,风险自担。)

PS. 1、(几乎)我所有的书都将渐渐地转为音频(长篇小说均改编为广播剧),(独家)上线喜马拉雅,已上线了25部。其中,多部专辑已进入了各类收听排行榜TOP50:如《归·去·来》广播剧最佳,曾经进入新专辑TOP10(目前在整个喜马拉雅的有声图书进入TOP100,和众多经典名著排在一起),另外,《看懂财经新闻的第一本书》《看懂货币的第一本书》《白话金融》《投资的方法》等进入财经类TOP30、甚至TOP5……请打开链接订阅收听:http://m.ximalaya.com/gatekeeper/h5-listen-list?albumId=75881160&uid=77781964

2、香港书展精选畅销书、科幻长篇小说《超时空拯救》繁体字版新鲜上架,全球发行,音频版新鲜上架:https://m.ximalaya.com/selfshare/album/76256765

3、金融科普之作《看懂金融的第一本书》(再版),销量竟然再次超过了基辛格百岁沉淀之作,有点儿不好意思了(凡尔赛一把) ;同时,繁体字版《白话金融》全球发行,音频版新鲜上架:https://m.ximalaya.com/selfshare/album/81093332

科技分类资讯推荐

从领先到落后:英特尔正经历“寒冬” - 天天要闻

从领先到落后:英特尔正经历“寒冬”

【环球网科技综合报道】7月11日,据外媒报道,英特尔首席执行官陈立武近日在发表内部讲话时直言英特尔已不再是领先芯片制造商,甚至不在前十。其市值如今仅约1000亿美元,与18个月前相比大幅缩水,而英伟达市值却一度突破4万亿美元,形成鲜明对比。“二三十年前,我们确实是行业领导者。可如今的世界已经变了,我们已不在全...
“中国太酷了”!硬核实力圈粉世界 - 天天要闻

“中国太酷了”!硬核实力圈粉世界

日前举行的国新办新闻发布会上,有记者提到,随着大量海外博主分享来华见闻,“中国变酷了”的印象被越来越多全球网友所认同。对此,国家发展改革委主任郑栅洁表示,这背后反映了中国的综合国力。中国变酷了!酷在哪里?
华为Pura 80 Ultra国际版亮相:系统开机是EMUI 15.0,电池容量为5170mAh - 天天要闻

华为Pura 80 Ultra国际版亮相:系统开机是EMUI 15.0,电池容量为5170mAh

当地时间7月10日,华为在迪拜推出全新的Pura 80 Ultra影像旗舰,售价是5099阿联酋迪拉姆,约合人民币9961元。对比国行版,Pura 80 Ultra国际版有两大变化,一是系统调整为EMUI 15.0,国行版系统是鸿蒙5.1,二是电池容量为5170mAh,国行版电池容量是5700mAh。来源 江南都市报、快科技编辑 贾凯 审核 蒋波 陈洁...
AMD下代桌面锐龙处理器:N2工艺、Zen6架构、更多内核、依旧AM5插槽 - 天天要闻

AMD下代桌面锐龙处理器:N2工艺、Zen6架构、更多内核、依旧AM5插槽

有关于AMD下代桌面端锐龙处理器的更多信息浮出水面。AMD下代桌面端锐龙处理器代号“Medusa Ridge”,将采用全新的Zen6架构,该架构将使用TSMC的N2(2nm)工艺节点构建CCD,相比于前代Zen5架构的台积电N4P工艺节点,N2工艺的晶体管密度将显著提升。此前单CCD的最大核心数量为8个,而在Medusa Ridge上AMD可能会将单个CCD
AI终结传统软件业,如同互联网终结传统媒体 - 天天要闻

AI终结传统软件业,如同互联网终结传统媒体

AI编程工具正推动软件行业走向“峰值时刻”。近日,芯片金融分析公司Fabricated Knowledge的创始人Doug O'Laughlin发表文章称,生成式AI正以类似互联网颠覆传统媒体的方式,重塑软件行业的格局。文章指出,AI工具,比如Cursor和Claude Code,正在让编写代码的成本和时间大幅下降,过去需要每token数千美元才能完成的开发
英特尔CEO陈立武坦言:公司已跌出半导体行业前十 - 天天要闻

英特尔CEO陈立武坦言:公司已跌出半导体行业前十

【TechWeb】7月11日消息,据外媒报道,英特尔CEO陈立武在内部讲话中坦言,公司已跌出半导体行业前十。陈立武表示,20到30年前,英特尔确实是领导者,世界已经发生了变化。我们现在已经不是排名前十的半导体公司了。有报道称,英特尔公司发言人后续解释称其所指为 "市值" 而非技术。在过去的 18 个月里,英特尔的市值从 202...
华为海思Cat.1物联芯片Hi2131正式上市 - 天天要闻

华为海思Cat.1物联芯片Hi2131正式上市

7月10日,华为海思正式宣布,Hi2131 Cat.1物联芯片正式上市。据介绍,Hi2131 Cat.1 芯片采用超轻量芯片架构与极简休眠管理,将休眠功耗一举压缩至 150uA。相较于常见的同类型芯片,保活功耗直降 30% 以上,数传功耗亦降低 10%。功耗的显著优化直接转化为设备续航能力的跃升。这意味着共享设备维护周期大幅延长,用户体验与...