人工智能的未来是软件故事，AI计算机硬件制造商Graphcore的CEO说

2022年06月28日11:53:20 科技 1962

编辑 | 白菜叶

首席执行官 Nigel Toon 表示，虽然以大型计算机硬件而闻名，但 Graphcore 已经开始与 Nvidia 争夺软件生态系统。

Toon 告诉媒体，软件是越来越大的人工智能问题所带来的巨大挑战的核心，而硬件虽然并非微不足道，但在某种意义上是次要的。

Toon 说：“你可以构建各种奇特的硬件，但如果你不能真正构建出能够将一个人的简单描述能力转化为硬件的软件，那么你就不能真正产生解决方案。”

他要强调的一点是软件因素。具体来说，Graphcore 的 Poplar 软件的能力，该软件将在 PyTorch 或 TensorFlow 等 AI 框架上编写的程序转换为高效的机器代码。

Toon 认为，事实上，翻译行为是人工智能的关键。无论你构建什么硬件，挑战都是：如何将 PyTorch 或 TensorFlow 程序员正在做的事情转化为晶体管可做的事。

一个普遍的概念是，人工智能硬件都是关于加速矩阵乘法，这是神经网络权重更新的构建块。但是，从根本上说，它不是。

“它只是矩阵乘法，还是我们需要的只是卷积，还是我们需要其他操作？其实，更多的是关于数据的复杂性。”他说。

Toon 表示，一个大型神经网络，如 GPT-3，是“真正的关联内存”，因此数据之间的连接是必不可少的，而事物进出内存的移动成为计算的瓶颈。

Toon 对这种连接问题非常熟悉。他在可编程芯片制造商 Altera 工作了 14 年，后来被 Intel 收购。可编程逻辑芯片，称为“FPGA”，通过在它们之间烧断保险丝将其计算机模块（称为单元）连接起来以完成每个任务。

他解释说，FPGA 的“所有软件”都是关于如何获取图形，即网络列表或 RTL，并将其转换为 FPGA 内部的互连。

这样的软件任务变得非常复杂。

他说：“你在芯片内部建立一个互连层次结构，试图做到这一点，但从软件的角度来看，将图形映射到互连是一个 NP 难问题。”他指的是计算复杂性的“非确定性多项式时间”。

因为它是将关联的复杂性转化为晶体管，“这实际上是一个图形问题，这就是我们将公司命名为 Graphcore 的原因。”Toon 说。一般而言，图是给定程序中不同计算任务之间相互依赖关系的总和。

“你必须从一种计算机科学方法开始，它会是图，你需要构建一个处理器来处理图，进行高度并行的图处理。”

“我们在此基础上构建软件，然后构建处理器。”他说。

这意味着硬件只是为软件服务。

“计算机遵循数据结构。”Toon 争辩道，“这是一个软件问题。”

这是 Toon 对 Nvidia 的 CUDA 软件进行即兴表演的机会，该软件在 AI 世界中拥有巨大的力量。

“这很有趣：很多人说 CUDA 在某种程度上是一个让其他人无法竞争的生态系统。”Toon 观察到。

“但你误解的是没有人在 CUDA 中编程，没有人想在 CUDA 中编程，人们想在 TensorFlow 和现在的 PyTorch 中编程，然后是 JAX——他们想要一个高级构造。”他说，指的是各种开放的，由 Meta 和 Google 等构建的源开发库。

“所有这些框架都是图框架。”他观察到，“你描述的是一个相当抽象的图，图中每个元素的核心都是大型运算符。”

Toon 指出，Nvidia “已经建立了一组惊人的库来转换程序员熟悉的高级抽象——这是 Nvidia 所做的，不一定是 CUDA。”

进入 Graphcore 的竞争产品 Poplar，它从 PyTorch 和其他产品转化为他认为 Graphcore 更高效的硬件。Poplar 将计算图拆开并将其转换为今天 Graphcore 硬件中的任何门，以及明天将取代这些门的任何东西。

然而，对于 Graphcore 或许多其他年轻有希望的公司，如 Cerebras Systems 和 SambaNova，在 Toon 提到的那些库上与 Nvidia 竞争，人们持怀疑态度。

在 4 月的一篇社论中，著名的微处理器报告的编辑 Linley Gwennap 写道，“软件，而不是硬件”仍然是问题所在。Gwennap 认为，对于 Graphcore 和其他公司来说，缩小差距的时间正在消退，因为 Nvidia 通过 Hopper 等硬件改进不断变得更好。

像 Gwennap 这样的怀疑论者难道不欣赏 Poplar 软件的进步吗？

“这是一段旅程。”Toon说，“如果两年前和 Poplar 接触，你会说，还不够好；如果现在和 Poplar 接触，你会说，其实还不错。”

“两年后，人们会说，哇，这让我可以做在 GPU 上做不到的事情。”

Toon 断言，该软件已经是其自身不断扩展的生态系统。“看看我们围绕 Poplar 创建的生态系统，比如 PyTorch Lightning、PyTorch Geometric”，这是移植到 Poplar 和 Graphcore IPU 芯片的 PyTorch 的两个扩展。

“它不仅仅是 TensorFlow，它是一个完整的套件。”他说，“TensorFlow 适合 AI 研究人员，但它不是数据科学家、个人或大型企业可以来玩的环境。”

从业者与科学家相比，需要可访问的工具。他指出，“我们使用 Hugging Face、Weights 和 Biases”以及其他机器学习工具。“还有许多其他库正在问世，有些公司正在 IPU 之上构建服务，”并且，“已经移植了与 Poplar 一起使用的 MLOps。”

他说，与 Cerebras 和其他竞争对手相比，Graphcore“在构建软件生态系统以创造易用性、人们可以进入的方式方面遥遥领先”。

Toon 坚持认为，事实上，这归结为软件双头垄断。“你看看其他任何人，即使是大公司，除了我们和 Nvidia 之外，没有其他人拥有这样的生态系统。”

同时，他声称，英伟达的硬件进步并不是因为 Nvidia 的设计自由受到其自身成功的限制。“Nvidia 在做什么？他们添加了 Tensor 核心，现在他们添加了 Transformer 核心——他们无法改变处理器的基本核心，因为如果他们这样做了，所有的库都必须被丢弃。”

他声称，虽然 Graphcore 在 MLPerf 行业测试套件的大多数基准测试中仍然落后于 Nvidia，但 Poplar 和 IPU 设计的结合在可以深思熟虑的特定情况下提供了可衡量的优势。

“例如，在一些模型上，比如图神经网络，我们看到的性能是基于 Nvidia 的机器的五到十倍。”他说，“因为我们在 IPU 内部构建的基础架构数据结构与这种稀疏的图类型的计算更加一致。”

他说，Poplar 软件还通过找到巧妙的方法来并行化图形元素，在运行 Transformer 模型方面实现了两到三倍的速度提升。

软件是战场，Nvidia 可以进行真正的竞争的前提是人工智能本身仍在不断发展。Toon 坚持认为，人工智能程序有很多变大的空间，这会限制计算能力。

而破解人类认知密码的根本问题还很遥远。

首先，程序确实一直在变大。

当今最大的人工智能模型，如 Nvidia 和 Microsoft 的 Megatron Turing-NLG，这是一种源自2017年 Transformer 创新的自然语言生成模型，有5万亿个参数，或者说权重，是神经网络中经过调整的元素，类似于真实人类神经元中的突触。

包括 Cerebras 在内的一些人已经指出了数万亿甚至数百万亿参数的未来，而 Toon 也赞同这种观点。

“随着参数数量的增加，数据量也随之增加。”Toon 说道，“计算量增加了这两个部分的倍数，这就是为什么这些大型 GPU 农场正在发展的原因。”

100 万亿这个数字是一种神奇的目标，因为它被认为是人脑中突触的数量，因此它可以作为某种基准。

鉴于 Graphcore 和 Nvidia 以及其他所有团队都在为它制造越来越强大的机器，显然没有关于越来越大的问题的争议。

然而，Toon 对第二点感兴趣，即计算机科学问题，即是否可以通过所有这些完成任何有用的事情，以及它是否可以接近人类智能。

“围绕这一点的挑战是，你知道，如果你有一个拥有 100 万亿参数的模型，它会变得像人一样聪明吗？” Toon 说。

这不仅是在这个问题上投入晶体管的问题，而且是设计系统的问题。

“你知道，我们真的知道如何训练它吗？” 意思是，一旦神经网络有 100 万亿个权重，就训练它。“我们知道如何为它提供正确的信息吗？我们是否知道如何构建该模型以使其实际上与人类的智力相匹配，或者尽管有更多参数，但它会如此低效吗？”

换句话说，“我们真的知道如何制造一台与大脑智能相匹配的机器吗？”

他提供的一个答案是专业化。一个包含一百万亿参数的模型可能非常擅长狭义定义的东西。“在像 [DeepMind 的游戏算法] Atari 这样的系统中，你有足够的约束来理解那个世界。”Toon 说。

同样地， “也许我们可以建立足够的理解，例如，细胞是如何工作的，DNA是如何转化为RNA进而转化为蛋白质的，这样你就可以有一个强化学习系统，利用这种理解来解决问题，例如，好吧，那么我如何折叠蛋白质，使其与这个细胞结合，我就可以与这个细胞进行通信，比如说，这个细胞是一个癌症。”Toon沉思道：“我可以在这种蛋白质上添加一种药物，它可以治愈癌症。”

“这有点像 DeepMind 构建的 Atari 游戏，它变成了超人，一个能够杀死癌症的超人系统——它将是专业的。”

他建议，另一种方法是“对世界更普遍的理解”，类似于人类婴儿的学习方式，通过“接触关于世界的大量数据”。Toon 说，100 万亿个突触问题将成为构建“层次结构”的问题之一。

“人类建立了对世界的理解层次结构。”他说，然后他们通过填补空白来“插入”。“你用你知道的东西来推断和想象。”他说。

“人类非常不擅长外推；我们更擅长的是内插，你知道，有一些东西遗漏了——我知道，我知道，这在中间的某个地方。”

Toon 对层次结构的思考与该领域的一些理论家相呼应，包括 Meta 的 AI 首席科学家 Yann LeCun，他曾谈到在神经网络中构建理解层次结构。Toon 表示他同意 LeCun 的一些想法。

Toon 说，从这个角度来看，人工智能的挑战变成了“你如何对世界建立足够大的理解，让你做更多的插值而不是外推？”

他认为，这一挑战将是高度“稀疏”的数据，从小的后续数据块更新参数，而不是对所有数据进行大量重新训练。

“即使在你更新世界的特定事物中，你也可能不得不触及你对世界理解的不同点。”Toon 解释道。“它可能不会整齐地集中在一个地方，数据非常混乱且非常稀疏。”

从计算的角度来看，“你最终会得到许多不同的并行操作。”他说，“所有这些都非常稀疏，因为它们正在处理不同的数据片段。”

这两个想法，即插值和更具体的癌症杀手模型，都与 Graphcore 的首席技术官 Simon Knowles 提出的想法一致，他谈到了“提取”一个更一般、非常大的神经网络到特定的东西。

这两个想法似乎都符合杨树软件作为关键功能的概念。如果新的数据片段稀疏，填补了空白，并且必须从联想存储器中的多个位置提取，并跨多个图形操作，那么杨树作为一种交通警察，在 IPU 芯片之间并行分发此类数据和任务，扮演着重要的角色。

尽管提出了这种情况，但 Toon 绝不是意识形态的。他注意到目前还没有人确定答案。“我认为关于它是如何运作的有不同的哲学和不同的想法，但没有人完全知道。这就是人们正在探索的东西。”