老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片

2024-06-07

AI的纷争越来越激烈,老黄跟苏妈都相继推出了自家的AI加速器。不过大家似乎忘记了还有一个芯片巨头——Intel。

在美国亚利桑那州Intel Vision 2024会议上,Intel发布性能最强的新一代Gaudi3 AI
加速芯片。当然,也包括全新的下一代英特尔至强6处理器等产品。



老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第1张

不过,我们今天的重点还是看看这个号称“超越H100”的Gaudi3 AI 加速芯片。

Intel的Gaudi
AI加速芯片已经推出了三代了,现有的Gaudi2芯片已经是两年前的产物,在2023年7月才正式引入国内,不错的性能与性价比一度成为不少大厂的优选。



老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第2张

从下图可以看到,Gaudi2 AI芯片为台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MB
SRAM缓存、21个10万兆内部互连以太网接口(ROCEv2 RDMA)、96GB HBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe
4.0 x16,最高功耗800W。



老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第3张

而全新一代的Gaudi3 AI芯片显然更胜一筹,专为高性能、高效率的生成式 AI
计算而生。其采用台积电5nm工艺打造,每个加速器都具有独特的异构计算引擎,由64个AI定制和可编程TPC和8个MME组成,支持128GB
HBMe2内存以及配备96MB SRAM缓存。

相比上代产品,Intel的 Gaudi 3带来了4倍的BF16 AI计算能力提升,1.5 倍的内存带宽以及 2 倍的网络带宽提升。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第4张

同时,每个Gaudi 3当中都集成24个200 Gb以太网端口,提供灵活且开放标准的网络。而Gaudi 3 的PCIe 功率为600w,带宽为每秒
3.7TB。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第5张

当然,AI芯片最重要的还是性能表现,在AI模型算力中,相比NVIDIA的H100 GPU,Gaudi3
AI芯片的模型训练速度、推理速度都更出色,分别提升了40%和50%,平均性能提升达到了50%,能效更是提高了40%,更重要的是,Gaudi3
AI芯片的成本比H100更低,妥妥的性能更强,价格更低。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第6张

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第7张

即使是面对NVIDIA的H200 GPU,Gaudi
3也毫不逊色。在LLAMA-7B以及LLAMA-70B的部分场景与H200基本是伯仲之间,差距基本在10%以内。如果是在Faicon
180B的大模型里,Gaudi 3的推理吞吐量和能效则非常出色,最高甚至可以领先H200 30%以上。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第8张

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第9张

性能表现想必已经足够惊艳你了,Intel还为Gaudi
3提供多种灵活的形态,包括OAM兼容夹层卡、通用基板、PCIe扩展卡。其中OAM的型号是HL-325L,其实就是单颗Gaudi
3的性能表现,TDP设定为900W,一般用于风冷型服务器。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第10张

更高端的HLB-325则包含八颗 Gaudi 3芯片,提供 14.6 PFLOPS FP8 性能,1TB带宽速率达 29.6TB/s的HBM2e
内存,64个线性计算引擎,192条200GbE 网络总线,9.6TB/s吞吐能力。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第11张

当然,还有更加精致小巧的版本,适合普通用户选用。PCIe 版本型号为 HL-338,提供单卡 1835 TFLOPS FP8 峰值性能,128GB
HBM2e 内存,8个线性计算引擎,24条200GbE网络总线,600W TDP,整张卡仅有两槽宽。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第12张

硬件够硬,软件也要够软。软件生态方面,Intel也在发力,Gaudi
3将针对生成式AI提供端到端全栈AI软件解决方案,包括嵌入式软件、软件套件、AI软件、AI应用等。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第13张

Gaudi 3 AI加速芯片兼具高性能、经济实用、节能、可快速部署等优点,能够充分满足复杂性、成本效益、碎片化、数据可靠性、合规性等AI应用需求。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第14张

Intel在Vision 2024上也同步介绍了这款芯片的生产节点,计划在今年第三季度向客户发货Gaudi 3
AI芯片,包括联想、惠普、Dell和Supermicro等OEM厂商都会使用这款新品构建系统。

老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片 (https://ic.work/) 国产动态 第15张

随着Gaudi 3的正式发布,当前AI芯片市场呈现出NVIDIA B200、AMD MI300系列和Intel Gaudi 3三足鼎立的格局。

Intel希望能够利用长期的 AI 技术积累,通过开放生态系统的力量以及出色的Gaudi 3硬件基础,乘上AI的热潮。

此次的Gaudi 3
AI加速芯片虽然有着出色的性能与极具竞争力的定价,不过AI领域绕不开的还有生态,这方面NVIDIA依旧是遥遥领先与红蓝两家,现在AMD与Intel在硬件层面已经追上来了,在软件层面我们也期待它们能够持续进步,让AI新技术普及、普惠到各行各业。


文章推荐

相关推荐