虽然很多人关注各种计算引擎的浮点和整数处理架构,但我们却花费越来越多的时间研究内存层次结构和互连层次结构。这是因为计算很容易,而数据移动和存储却变得越来越困难。
用一些简单的数字来说明这一点:在过去的二十年中,CPU 和 GPU 的计算能力增加了 90,000 倍,但 DRAM 内存带宽仅增加了 30 倍,互连带宽也仅增加了 30 倍。近年来,我们在某些方面取得了进步,但我们认为计算与内存的平衡仍然很遥远,这意味着我们在用于大量 AI 和 HPC 工作负载的内存不足的计算引擎上花费过多。
正是考虑到这一点,我们考虑了 Eliyan 创建的网络中物理层 (PHY) 的架构创新,这些创新在本周的 MemCon 2024 会议上以不同且非常有用的方式展现。联合创始人兼首席执行官 Ramin Farjadrad 花了一些时间向我们展示 NuLink PHY 及其用例如何随着时间的推移而发展,以及如何使用它们来构建比使用 PHY 更好、更便宜、更强大的计算引擎当前基于硅中介层的封装技术。
PHY 是一种物理网络传输设备,它将交换芯片、网络接口或计算引擎上或内部的任何数量的其他类型的接口链接到物理介质(铜线、光纤、无线电信号),而物理介质又连接它们相互之间或网络上。
硅中介层是一种特殊的电路桥,用于将 HBM 堆叠式 DRAM 内存连接到计算引擎,例如 GPU 和定制 ASIC,这些引擎通常用于 HPC 和 AI 领域的带宽敏感应用。有时 HBM 使用也需要高带宽内存的常规 CPU。
Eliyan 于 2021 年在圣何塞成立,目前拥有 60 名员工。该公司刚刚获得了 6000 万美元的第二轮融资,由内存制造商三星和 Tiger Global Capital 领投 B 轮融资。 Eliyan 于 2022 年 11 月在 A 轮融资中筹集了 4000 万美元,由 Tracker Capital Management 领投,Celesta Capital、英特尔、Marvell 和内存制造商美光科技 (Micron Technology) 出资。
Farjadrad 在互联网热潮期间在 Sun Microsystems 和 LSI Logic 担任设计工程师,曾担任 Velio Communications(现为 LSI Logic 的一部分)的交换机 ASIC 首席工程师和联合创始人,并且是联合创始人和首席技术Aquantia 的官员,该公司为汽车市场生产以太网 PHY。 2019 年 9 月,Marvell 收购了 Aquantia,并让 Farjadrad 负责网络和汽车 PHY。 Marvell 已成为最大的 PHY 制造商之一,在设计这些系统关键组件方面与 Broadcom、Alphawave Semi、Nvidia、Intel、Synopsis、Cadence 以及现在的 Eliyan 等公司竞争。
Eliyan 的其他联合创始人包括 Syrus Ziai,他是工程和运营主管,并曾担任高通公司 Ikanos 的工程副总裁。多年来,PsiQuantum 和 Nuvia 以及业务和企业发展主管 Patrick Soheili 曾负责 eSilicon 的产品管理和人工智能战略主管。该公司因在 Apple iPod 音乐播放器中创建 ASIC 以及开发 2.5D ASIC 封装和 HBM 内存控制器而闻名。当然,eSilicon 于 2019 年底被 Inphi 以 2.13 亿美元收购,扩大了其 PHY 能力,2021 年 4 月,Marvell 在 2020 年 10 月以 100 亿美元收购 Inphi,完成了这一循环。
PHY 以及 I/O SerDes 和重定时器都有资金。 SerDes 与交换机 ASIC 中使用的那些用于将从设备发出的并行数据转换为通过电线、光纤或空中传输的串行数据一样,是一种特殊的 PHY,从某种角度来看,SerDes 也是一种特殊的 PHY。随着带宽的增加以及可以推送干净信号的铜线长度的减少,重定时器将被越来越多地使用。
我们说,费用 PHY Faux Big Sum 。接下来,我们来谈谈 2.5D 封装。
拿出你的 2.5D 眼镜
随着摩尔定律在晶体管密度方面的增长速度放缓,并且晶体管的成本随着每一种后续工艺技术的发展而不是下降,我们都已经意识到现代芯片蚀刻工艺的掩模版限制。使用普通极紫外 (EUV) 水浸光刻技术,可以在硅晶圆上蚀刻晶体管的最大尺寸为 26 毫米 x 33 毫米。
但我们中的许多人可能没有意识到,这也是硅中介层尺寸的限制,硅中介层允许小芯片在有机基板顶部相互链接,有机基板就像每个计算引擎插槽及其附属 HBM 内存下方的主板。该硅中介层的尺寸取决于用于创建中间板的技术。 (嗯,就是这样。)中介层采用与芯片相同的光刻工艺制造,但如今使用一些技术,中介层可以达到 2,500 mm 2,而不是像芯片那样具有858 mm 2的掩模版限制,并使用其他接近 1,900 mm 2 ;据 Farjadrad 称,计划将其提高到 3,300 mm 2 。有机基板插座没有这样的面积限制。当您谈论小芯片的 2.5D 封装时,这一点很重要。
Farjadrad 向我们介绍了与 Eliyan 的 NuLink PHY 竞争的不同 2.5D 方法的馈送、速度和局限性。
以下是台积电如何通过硅片晶圆芯片 (CoWoS) 工艺实现 2.5D,该工艺用于创建 Nvidia 和 AMD GPU 及其 HBM 堆栈等:
从技术上讲,上图显示了台积电的 CoWoS-S 内插器技术,该技术用于将 GPU、CPU 和其他加速器链接到 HBM 内存。前身 CoWoS-R 的硅中介层仅限于大约两个标线单元,这正是Nvidia 上周刚刚推出的“Blackwell”B100 和 B200 GPU的尺寸,但该 GPU 封装使用了更现代、更不那么引人注目的设计。 CoWoS-L 技术,制造起来更加复杂,就像其他方法中使用的嵌入式桥一样。 CoWoS-L 的尺寸有三个标线限制。
一种桥接技术称为带有嵌入式桥接的晶圆级扇出技术,该技术由芯片封装商 Amkor Technology 倡导,并有来自 ASE Holdings 的一种名为 FOCoS-B 的变体。以下是这种包装方法的进给和速度:
使用这种 2.5D 封装,您可以制作尺寸约为三个掩模版限制的封装。高迹线密度意味着您可以以低功耗获得高芯片间带宽,但范围有限,布线能力也有限。哦,它还没有真正被大量推动。
英特尔将硅桥直接放入容纳小芯片的有机基板中(减去中介层)的方法与 Eliyan 对 NuLink 所做的类似:
然而,EMIB 受到生产周期长、产量低、覆盖范围和可布线性有限以及由一家目前在先进半导体领域声誉不佳的公司英特尔组成的有限供应链的困扰。公平地说,英特尔正在重回正轨。但它还没有出现。
Eliyan 提出了 NuLink 的修改后的 2D MCM 流程:
Farjadrad 表示,一年前,NuLink PHY 的数据速率是 MCM 封装中使用的传统 PHY 的大约 10 倍,并且 NuLink PHY 之间的走线长度可以是 2 厘米到 3 厘米,是 20 到 30 倍增加了 CoWoS 和其他 2.5D 封装选项支持的 0.1 毫米走线长度。正如您将看到的,走线上的额外距离,以及 NuLink PHY 在这些走线上具有双向信号的事实,使计算引擎设计发生了巨大的变化。如今,有更快的 PHY 可用于竞争,这已将增量减少到 4 倍。
“在当前的架构中,当您在内存和 ASIC 之间运行数据包时,该数据包数据并不是同时双向的,”Farjadrad 告诉The Next Platform。 “你要么从内存中读取,要么从内存中写入。如果您有一个端口可以同时传输或接收一个端口,那么您可以从同一海滨获得两倍的带宽,这就是 NuLink 的作用。因此,您并没有浪费一半的 ASIC 海滨空间,这是非常宝贵的。我们需要自己的特殊协议来维护内存一致性,确保读取和写入之间不存在冲突。我们知道当我们制作 PHY 时,我们需要为特定应用制作相关协议。这是我们最大的区别之一。拥有最好的 PHY 是一回事,但将其与人工智能应用的正确专业知识相结合是另一个重要因素,我们知道如何做到这一点。”
当 NuLink 于 2022 年 11 月首次推出时,它还没有这个名称,Eliyan 还没有提出使用 PHY 来创建通用内存接口 (UMI) 的方法。 NuLink 只是一种实现方式,既可以使用 UCI-Express 小芯片互连协议,也可以支持 Farjadrad 和他的团队多年前创建并捐赠给的原始 Bunch of Wires (BoW) 小芯片互连所支持的任何协议。开放计算项目作为提议的标准。以下是 Eliyan 如何针对各种内存和小芯片互连协议堆叠 NuLink:
我们喜欢这张桌子。
Intel MDFIO 是 Multi-Die Fabric I/O 的缩写,用于将“Sapphire Rapids”Xeon SP 处理器中的四个计算小芯片相互连接; EMIB 用于将这些小芯片链接到具有 HBM 的 Sapphire Rapids Max 系列 CPU 变体的 HBM 内存堆栈。 OpenHBI 基于 JEDEC HBM3 电气互连,也是 OCP 标准。我们在此介绍的UCI-Express是一种带有 CXL 一致性覆盖层的时髦 PCI-Express,旨在成为小芯片的芯片间互连。该表中缺少 Nvidia 的 NVLink(目前用于将 Blackwell GPU 复合体上的小芯片粘合在一起),以及用于“Ponte Vecchio”Max 系列 GPU 上的 GPU 小芯片的英特尔 X e Link。与 UCI-Express 不同,NuLink PHY 是双向的,这意味着您可以拥有与 UCI-Express 一样多或更多的电线,但走线上的带宽加倍或更多。
正如您所看到的,有一种昂贵的封装选项,使用凸点间距为 40 微米到 50 微米的凸点,并且芯片到芯片的距离仅为约 2 毫米。 PHY 的带宽密度可能非常高(小芯片上每毫米海滩的带宽密度为 Tb/秒),并且功率效率因方法而异。整体延迟也低于 4 纳秒。
表右侧是互连 PHY,可与标准有机基板封装配合使用并使用 130 微米凸块,因此是更便宜的选择。其中包括 Cadence 的 Ultralink PHY、AMD 的 Infinity Fabric PHY、Alphawave Semi 的 OIF 超短距离 (XSR) PHY,以及即使不采用低间距凸点仍可驱动相当高信号的 NuLink 版本。
看看桌子右侧的骰子到骰子的范围。您可以使用 2 厘米做很多事情,而使用 2 毫米以及 ASIC 和 HBM 堆栈或相邻小芯片之间的 0.1 毫米间距则无法做到这一点。这些较长的链路打开了计算和内存复合体的几何结构,并且还消除了 ASIC 和 HBM 之间的热串扰效应。堆叠内存对热量非常敏感,随着 GPU 变得越来越热,需要冷却 HBM 才能正常工作。如果你能让 HBM 远离 ASIC,你就可以更快地运行 ASIC(Farjadrad 估计大约 20%)并且温度更高,因为内存距离不够近,不会直接受到 ASIC 热量增加的影响。
此外,通过去除 GPU 等设备中的硅中介层或等效物,并转向有机基板并使用更厚的凸块并间隔开组件,您可以将具有十几个 HBM 堆栈的双 ASIC 设备的制造成本从约 12,000 美元降低芯片加封装的良率约为 50%,而设备的良率则为 87%,成本约为 6,800 美元。
让我们再看两张对比 UCI-Express、BoW 和 UMI 的图表,然后我们可以玩一下系统架构师。
正如您所看到的,Eliyan 不断挑战其 PHY 双向功能的极限,现在能够进行同步双向流量,称之为 UMI-SBD。
这里显示了这四种选项的带宽和 ASIC 海滨:
因此,现在被称为 UMI 的 NuLink PHY 比 UCI-Express 更小、更快,并且可以同时投球和接球。你能用它做什么?
首先,您可以构建更大的计算引擎:
24 个或更多 HBM 堆栈以及包含 10 到 12 个网格的计算引擎包如何吸引您?这种设备的制造时间仅为标准有机基板的四分之一到五分之一。
IBM 从 1989 年左右的巅峰时期开始走下坡路后,在 20 世纪 90 年代初曾流行过这样一句话:你可以找到更好的,但你不能付出更多。
当然,Nvidia 不是 IBM。或者英特尔。无论如何,还没有。轻松赚钱会对公司及其路线图产生奇怪的影响。
以下是 Eliyan 认为 HBM4 未来可能发挥的作用:
HBM4 内存的 JEDEC PHY 非常大,切换到 UCI-Express 会将这个面积减少一半。使用 NuLink UMI PHY 几乎会再次将其减半,为您选择的 XPU 上的逻辑留下更多空间。或者,如果您想放弃中介层,制造一个更大的设备,并配备 13 mm 2 UMI PHY,您也可以构建一个更便宜的设备,并且仍然可以从每个 HBM4 中驱动 2 TB/秒堆。
现在事情变得有趣了。
早在 2022 年 11 月,当 Eliyan 提出其想法时,它正在将带有连接到 HBM 内存的中介层的 GPU 与移除中介层并将 ASIC 增加一倍(就像 Blackwell 所做的那样)并放置一个野兽的机器进行比较。与 ASIC 小芯片相比,24 个 HBM 排名非常出色。像这样:
左边是 Nvidia A100 和 H100 GPU 及其 HBM 内存的架构。中间是一张 Nvidia 图表,显示了随着 AI 应用程序使用更多 HBM 内存容量和更多 HBM 内存带宽,性能如何提升。正如我们所知,具有 141 GB HBM3E 内存和 4.8 TB/秒带宽的 H200 的工作量是具有相同 GH100 GPU 但只有 80 GB HBM3 内存和 3.35 TB/秒带宽的 H100 的 1.6 倍到 1.9 倍。带宽。
想象一下如上所示的野兽,拥有 576 GB HBM3E 内存和 19 TB/秒的带宽!请记住:内存并不是功耗的主要部分,GPU 才是,迄今为止我们所看到的少量证据无疑表明 Nvidia、AMD 和 Intel 投入该领域的 GPU 都受限于 HBM 内存容量和带宽——并且由于制造这种堆叠存储器的难度而存在很长一段时间。这些公司生产 GPU,而不是内存,他们通过在处理大量计算时提供尽可能少的 HBM 内存来最大化收入和利润。它们总是显示比上一代更多的内容,但 GPU 计算量的增长速度总是快于内存容量和带宽。 Eliyan 提出的设计可以使计算和内存恢复平衡,并使这些设备变得更便宜。
也许这对于 GPU 制造商来说有点太强了,因此随着 UMI 的推出,该公司稍微退一步,展示了如何使用中介层和有机基板加上 NuLink PHY 的组合来制造更大、更平衡的 Blackwell GPU 复杂。
左下图展示了如何创建一个 Blackwell-Blackwell 超级芯片,其中一个 NVLink 端口以 1.8 TB/秒的速度运行,将两个双芯片 Blackwell GPU 连接在一起:
通过 NuLink UMI 方法(如上图右侧所示),有 6 个端口可以在两个 Blackwell GPU 之间提供大约 12 TB/秒的带宽 - 比 Nvidia 提供的 10 TB/秒多一点NVLink 端口可将 B100 和 B200 中的两个 Blackwell 模具连接在一起。 Eliyan 超级芯片设计中的带宽是 Nvidia B200 超级芯片设计(如果有)的 6 倍。如果 Nvidia 希望坚持其 CoWoS 制造工艺,Eliyan 可以将相同的 8 组 HBM3E 内存放置在中介层上,但随后它可以将另外 8 组 HBM3E 放置到每个 Blackwell 设备上,总共 32 组 HBM3E,这将产生 768 GB 的容量和 25 TB/秒的带宽。
稍微咀嚼一下。
但是等等,这并不是你得到的全部。这种 UMI 方法适用于任何 XPU,也适用于任何类型的内存,您可以在一块巨大的有机基板上做一些疯狂的事情,而不需要中介层:
任何内存、任何共同封装的光学器件、任何 PCI-Express 或其他控制器都可以使用 NuLink 连接到任何 XPU。至此,插座才真正成为了主板。