ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。

2024-03-06

Arm Neoverse数据中心计算路线图中刚刚添加了许多整洁的东西,但其中之一不是数据中心级的离散GPU加速器。另一个也没有更具体的矩阵数学加速器,如英特尔(哈巴纳实验室)、SambaNova系统、Tenstorrent、Groq或Cerebras系统创建的加速器。

真可惜,真的。

考虑到Nvidia——Arm Holdings的前几乎所有者和一家承诺如果允许400亿美元收购Arm通过地球监管机构进行GPU设计的公司——正在筹集所有资金,不是交出拳头,而是用一英亩宽的联合收割机,你会认为市场会要求Arm为Nvidia现有的“Hopper”H100/H200和即将到来的“Blackwell”B100/B200独立GPU和AMD现有的“Antares”Instinct MI300和未来的Instinct MI400独立GPU提供更便宜的替代品。

我们知道你在想什么。你为什么不提到英特尔的离散数据中心GPU?好吧,英特尔的“Ponte Vecchio”Max系列GPU,除了阿贡国家实验室“Aurora”超级计算机内部的GPU外,并不是独立GPU领域的真正竞争者,但可悲的是,如果英特尔现在能赚到100万个,它就会卖出100万个,而且要很长时间,英特尔将Max系列GPU与高迪矩阵加速器融合,创造出可能具有竞争力的东西。

不,那艘船早就启航了,谷歌已经创建了TPU,亚马逊网络服务已经创建了Trainium和Inferentia,微软已经创建了Maia,Meta Platforms已经致力于其MTIA系列。就数据中心基础设施收入而言,近一半的市场已经在做自己的事情,试图构建新的GPU或矩阵架构的风险太大,否则Arm会这样做。由于这种风险,我们可以争辩说,只有Arm才能做到这一点,并且有成功的希望。

如果有人有勇气创建一个与Nvidia设备兼容的bug对bug的GPU,我们至少可以对IBM与Amdahl、Fujitsu和Hitachi进行大型机克隆战争的重现感到好笑——尽管有几起反垄断诉讼,但IBM最终还是赢得了——或者英特尔和AMD之间与数据中心X86架构的史诗般的战斗——顺便说一句,AMD赢了两次。

但唉,看起来Arm没有胃口。其他人也没有。正是因为主机和X86架构发生了什么。

因此,Arm Holdings,一家自身的上市公司,由于瘦弱的股票浮动和非理性的繁荣,它比其软银母公司更有价值,它将坚持其CPU编织,并通过其Neoverse CPU设计获得AI培训和推理资金的任何部分。没有什么比这张图表更清楚的了,它是我们参与的Arm 2024 Neoverse路线图简报的一部分:

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第1张

知道你的位置。不要惹麻烦。在你领先的时候退出。

公平地说,上述所有三个CPU都基于Arm架构以及那些本土加速器,沿着底部运行的三个DPU中至少有两个也是Arm架构。(我们不确定Azure Boost,但如果里面有CPU,它几乎可以肯定是基于某种Arm内核。)这种图表早在2011年就是一个梦想,当时Arm开始认真攻击数据中心的X86 CPU。Arm CPU在超大规模和云构建器数据中心的崛起是绝对的成功。

我们只想要更多。我们认为,数据中心中人工智能工作负载的复杂性和独特性需要更多。一个愤世嫉俗的人可能会说,Nvidia愿意为Arm Holdings支付400亿美元,以防止IP公司创建和许可一个杀手级的GPU,当Nvidia看到GenAI浪潮到来时,这笔交易让Arm处于次要地位。

即使是Arm自己的蜘蛛图,概述了不同类型数据中心工作负载的性能向量,也提出了更多

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第2张

唉,在2024年,我们从Arm Holdings得到的越多,随着路线图的扩展,各种Neoverse核心类型的延续,以及计算子系统(CSS)的许可包,这些许可证包将适用于高性能V级核心以及去年夏天已经宣布的N级核心,“创世纪”知识产权包裹在“珀尔修斯”N2核心上。

英伟达的“Grace”CG100和亚马逊的Graviton4基于我们去年夏天钻入的“Demeter”V2内核。微软的128核Cobalt 100处理器基于Genesis CSS N2设计,我们强烈怀疑谷歌传闻中的“Maple”Arm服务器CPU也将基于CSS跳转启动——也许在“Poseidon”V3核心或“Hermes”N3核心的CSS堆栈上。这在很大程度上取决于谷歌试图实现什么,以及何时实现。不可避免地,我们认为所有超大规模和云构建器都会在数据中心部署N和V内核混合的Arm CPU,在边缘部署E内核。当然,他们也将拥有X86处理器的混合,这些处理器可能会在很长一段时间内成为占主导地位的CPU。但是,变化有时会很快发生,所以不要停留在你的桂冠上,AMD,也不要停留在AMD的桂冠上,英特尔。

让我们深入研究Neoverse CPU路线图,从2022年9月的路线图开始,作为复习,因为坦率地说,它比2024年路线图有更多的细节:

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第3张

Neoverse的努力已经有六年的历史了,早在2018年10月,它开始的想法是每年做一个新的核心和服务器平台,并每年在台湾半导体制造公司攀爬制造工艺步骤的变化。2019年的“Ares”平台蚀刻了7纳米晶体管,预计“Zeus”将于2020年采用增强型7纳米工艺,而“Poseidon”预计将于2021年采用5纳米工艺。也许比这种时钟工作节奏更重要的是期望——真的希望——在可预见的未来,Arm可以在每个代阶梯中提供30%的性能改进——部分通过架构,部分通过功能。

然后,Neoverse路线图被分叉到N、V和E核心,将核心进入该领域需要更多时间。例如,Poseidon V3内核现在只有在最初预计在2021年才可用,然后进行了修订,以两年前路线图中更模糊的“2023+”。这些事情需要时间,真正推动Neoverse路线图的超大规模者和云构建者需要在全球大流行中整理他们的芯片计划,这场疫情真正扰乱了供应链和计划。

我们认为,随着Neoverse的推进,Arm及其客户的航程会更加顺利。

仅供参考,这是去年的Neoverse路线图,该路线图随着CSS的发布而发布,为了清晰起见,我们添加了代号:

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第4张

我们去年表示,需要为Nvidia最初部署的Demeter V2核心提供一个CSS软件包,但看起来这不会发生。好消息是,波塞冬核心及其CSS包现已可用,爱马仕N3核心及其CSS包也可用,正如2024年Neoverse路线图所示:

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第5张

我们不知道N3和V3 CSS软件包的代号是什么,但我们不会成为“Exodus”和“Leviticus”,以符合《旧约》书籍,这是Neoverse N2 IP堆栈的创世纪名称所建议的。事实证明,他们是CSS V3的“Voyager”和CSS N3的“先锋”。

Arm已经在这个2024年路线图上离开了X轴的岁月,所以我们不知道后续的“Adonis”V4内核和他们的“Vega”CSS包,后续的“Dionysus”N4内核和他们的“Ranger”CSS包,以及后续的“Lycius”E4内核何时可用。Arm Neoverse顶级黄铜在未来承诺了更多细节。

这是我们所知道的。CSS N3软件包从32个N3内核的块开始,有一对DDR5内存控制器,一对I/O控制器和可选的死对死互连,以创建计算复合体,这些复合体将我们预期的两个复合体粘在一起,以创建一个套接字,产生64个内核。这些N3内核是符合最新的Armv9.2规范的。

N3内核或CSS N3封装的工艺技术尚未公布,但我们相信它将有来自台积电的5纳米和3纳米以及三星和英特尔的任何模拟产品可供选择。

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第6张

上面的数据点是,N3 CSS封装可以在40瓦的热设计点中提供32个内核,这强烈表明,这种设计将引领台积电的3N 3纳米工艺。

根据Arm的说法,N3封装可以缩小到八个内核,大概有一个DDR控制器和一个I/O控制器。从之前的2022年9月路线图来看,我们怀疑N3内核将被放入支持DDR5内存和具有CXL 3.0一致性覆盖的PCI-Express 6.0外围控制器的软件包中。但是,如果下面描述的CSS V3软件包是指南,它可能会被保留到PCI-Express 5.0外围设备和CXL 2.0。(我们不是说它是。)

我们不知道N3内核上的矢量单元有多宽,或者有多少个,但如果N3内核要在CPU上进行人工智能推理和一些人工智能训练——这就是Arm认为会发生的——那么与N2内核相比,它们必须得到加强,N2内核有一对128位向量,每个时钟可以进行四次FP64操作,然后将其向下雕刻,以获得混合精度性能。一个适当的矩阵数学单元——一个张量核心——可能也会被添加到N3核心中,但Arm没有说。

如果历史是任何指南的话,波塞冬V3核心可能会以类似的方式得到加强,其矢量和矩阵的魅力是爱马仕N3核心的两倍。但我们还不知道。宙斯V1内核有一对256位矢量,使用德米特V2内核,这被更改为四个128位矢量;两者每个时钟都做了八次FP64操作,但后一种设计效率更高。看看V3核心会发生什么会很有趣。鉴于我们对V1核心的了解,四个256位矢量会很奇怪,八个128位矢量听起来可能很奇怪,直到你意识到这正是英特尔在“Sapphire Rapids”Xeon SP CPU中创建AMX矩阵数学单元的方式。

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第7张

无论如何,基本的CSS V3构建块是64个V3内核,带有六个DDR%内存控制器,四个PCI-Express 5.0 I/O控制器和一对模到模互连。2022年9月的路线图告诉我们,预计V3一代将配备PCI-Express 6.0和CXL 3.0。这要到V4,可能还有N4代才会发生。(也可能N3先得到PCI-Express 6.0,而V3根本没有得到它。)

根据Arm的说法,这个CSS V3复合体的性能比库存CSS N2复合体高50%,其中两个可以放在一个包中,在单个套接字中扩展到128个内核。我们感到惊讶的是,它无法扩展到256个内核,但这可能是CSS的限制,而不是V3架构本身。我们确信有人可以建造一个256核V3插座;然而,这在技术上或经济上可能没有意义。

V3软件包将支持DDR5内存或HBM堆叠内存,看看世界上是否有任何CPU制造商会使用HBM会很有趣。为什么不呢?HPC和AI的好处是显而易见的,当金钱不是问题时,就像GenAI的情况一样,为什么不建立一个热棒呢?

Arm热衷于指出,CSS V3软件包旨在直接紧密地连接到加速器,鉴于其Grace-Hopper超级芯片复合体,这对Nvidia来说显然很重要。

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第8张

为了刺激食欲,Arm针对之前的N1和V1内核以及英特尔和AMD的过去两代X86处理器,给出了V2内核的一些早期性能规格。看看这些:

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第9张

这里还有一个显示V3如何与V2堆叠,以及N3如何在各种工作负载中与N2堆叠:

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第10张

Arm特别努力地提高XGBoost的性能,XGBoost是一种用于进行回归、分类和预测的经典机器学习算法。

只是为了好玩,Arm在相对较小的LLaMA 2大型语言模型上给出了一些AI推理基准,该模型只有70亿个参数:

ARM NEOVERSE新路线图揭秘CPU设计,但遗憾缺失强大GPU支持。 (https://ic.work/) 推荐 第11张

数据不适用于V3设计,这是每个人都会关心的

文章推荐

相关推荐