Arm CEO对话黄仁勋:畅谈 AI 技术未来图景,探索“人类终极边疆”

2024-10-31

提到AI,就会想到英伟达。而同样的,不可忽视的端侧AI的计算提供者还有Arm。这两家计算公司在计算能力上的互取彼长,才能够成就今时今日和未来的全面AI场景。在当下AI加速成熟和规模化应用的阶段——或是像Rene Haas形容的在“人类探索的终极边疆”,两位卖铲人又是如何看待AI的发展?在由Arm主办的《Tech Unheard》首期播客中,NVIDIA创始人、总裁兼首席执行官黄仁勋(Jensen Huang)与Arm首席执行官Rene Haas展开对话。

在两位长期合作的同事和朋友之间的对话中,他们深入探讨了Jensen作为科技巨头的创始人背后的历程、AI的未来,以及NVIDIA如何以持续创新推动技术突破极限。

Arm CEO对话黄仁勋:畅谈 AI 技术未来图景,探索“人类终极边疆” (https://ic.work/) 产业洞察 第1张



从GPU、到SoC、再到系统全栈的技术进阶

在对谈中,黄仁勋分享了Arm与NVIDIA的合作如何帮助NVIDIA从芯片制造扩展到完整的系统设计。Jensen提到:“事实上,Arm 帮助我们转型为一家构建 SoC 的公司,这一点非常重要。”

什么是 SoC?SoC 大体上相当于一整台计算机,而独立 GPU 是计算机中最后启动的一个部件。先是 CPU 启动,继而是引导 ROM 启动,接着是操作系统启动,最终才是 GPU 启动。对于 SoC 来说,必须亲自完成整体启动过程。这也使得英伟达从一家算法公司(实际上就是一家 GPU 公司)转型为一家全面的计算公司。

一开始构建SoC对于英伟达而言并不容易,这标志着英伟达从一家算法公司(实际上就是一家 GPU 公司)转型为一家全面的计算公司。但一旦完成之后。Jensen的发展目标便快速推进到了下一步——构建完整的计算系统。

Jensen特别提到,他仍然非常喜欢SHIELD,它实际上是其创建的第一个英伟达完整系统。SHIELD系列是NVIDIA 2013年最初发布为游戏主机,后来演变为一种高性能Android TV设备。它是NVIDIA 进入消费电子市场并尝试从芯片制造扩展到系统级产品的重要一步。而彼时在Rene Haas回忆起来,也恰恰正是Arm称得上是刚起步的时刻。

Arm CEO对话黄仁勋:畅谈 AI 技术未来图景,探索“人类终极边疆” (https://ic.work/) 产业洞察 第2张

在今天看来,SHIELD代表了 NVIDIA 在消费市场上对游戏和多媒体娱乐的尝试,而另一个重要的系统——DGX-1 则是其进入 AI 和数据中心计算领域的战略步骤。

“SHIELD 是塑料材质,而 DGX1 重 600 磅,这种转变并不是什么大问题。重要的是,我们现在能够构建系统。”Jesnsen强调到。

2016年,NVIDIA发布了DGX-1,这是一款专为深度学习和高性能计算设计的 AI 超级计算机。DGX-1 是 NVIDIA 第一个推出的完整计算系统之一,它不仅包括 GPU 硬件,还配有经过优化的软件栈,专为深度学习而设计。它集成了 GPU 驱动程序、深度学习框架(如 TensorFlow、PyTorch等)和优化工具,用户可以开箱即用,快速开始 AI 项目的开发和训练。DGX-1是 NVIDIA 在向系统设计扩展过程中取得的重要成果之一。与SHIELD 类似,DGX-1 也体现了 NVIDIA 从芯片设计扩展到整体系统的能力,只不过 DGX-1 面向的更多是企业级和数据中心级的 AI 应用场景。

而为了使这个“构建完整计算系统”的愿景进一步扩大,英伟达随后实现了对于Mellanox的收购。而这次收购为英伟达带来了重要的网络和互连技术,使得英伟达真正具备了构建完整计算系统的能力。

Arm CEO对话黄仁勋:畅谈 AI 技术未来图景,探索“人类终极边疆” (https://ic.work/) 产业洞察 第3张

“我们的想法是计算机不再是那个节点,而是成为整个数据中心,而数据中心将成为计算单元。如果你没有设计过 GPU、CPU、NIC、交换机、各种收发器,然后将所有这些东西连接在一起,从零开始启动系统,让一切正常运行并在其中分配工作负载,那么你就不会真正理解构建这些 AI 超级集群意味着什么。”Jensen回顾到。“这种转变、这种愿景是如此清晰,能够激励我们的两个团队奋勇向前。为了激励团队,必须有一个非常清晰的愿景。”

而一切的积累,成就了今日NVIDIA不再只是GPU的提供者,而是整体解决方案的创新者。通过构建系统,他们致力于从单一组件到整个系统的突破,这种进步使NVIDIA成为了涵盖从芯片到系统解决方案的完整科技公司。



从“被动工具”到“AI工厂”,推动AI计算降本增效提速

传统计算机一直被认为是一种工具,人们需要的时候就使用它,就像一个装在口袋里的手机,只有使用时才有作用。而计算机之前是这样的“被动工具”。但是随着 AI 的出现,计算机开始转变,不再只是需要人类输入和激活才会发挥作用的工具,而是开始主动工作,类似于一个“工厂”,可以不断地产生有价值的输出,比如词元(tokens)、智能洞察和数据分析结果。

Jensen提到了一个“AI工厂”的概念,即AI系统就像一台始终保持运转的制造设备,无论是否有具体的任务,AI 都会不停地进行数据处理、学习和生成新的信息。这种持续的运转使得 AI 的生产方式与传统计算机截然不同,因为它不再是依赖人类手动操作才起作用,而是可以主动进行运算,持续不断地创造有价值的智能结果。

黄仁勋强调,AI 的这种转变引发了类似工业革命的变化。过去的工业革命使机器大规模生产物理产品,而现在,AI 系统作为智能工厂,可以大规模地生产“智能”——这是一种完全不同的产业形态。这种变化带来了一个全新的时代,在这个时代中,计算机和 AI 不再是单纯的工具,而是生产智能的主动力量,从根本上改变了它们在社会中的角色。

而NVIDIA 正在努力加快 AI 和芯片技术的发展,每年进行一次技术更新。通过这种快速的迭代,他们实现了每年显著的性能提升,使得技术进步速度远超出传统的摩尔定律(摩尔定律指的是芯片性能每两年左右翻倍)。

为了实现每代产品的显著性能提升,NVIDIA 的策略是为每个系统设计多种新型芯片,并利用“协同设计”的方法,从系统架构到组件(例如NVLink交换机和新的系统机架)都进行整体优化。这种方法使得不同的芯片和硬件组件可以高效协作,比如通过布设铜缆将所有 GPU 连接起来形成大型封装,这样的 3D 封装可以提高系统的整体性能。

通过这些创新,NVIDIA 实现了每年性能提升 2-3 倍,而能耗和成本却保持不变。这意味着 AI 技术的成本每年都在降低,尤其是在相同的能耗和硬件成本下实现更高的计算能力。这样的效率提升对于 AI 的广泛应用是至关重要的。

黄仁勋提到 ChatGPT 作为当前 AI 应用的一个例子,指出目前它在响应请求时只进行一次推理,但未来希望能够让 AI 进行多轮推理。这意味着 AI 可以对每个问题反复思考,通过树形搜索和迭代改进其回答,使得最终输出的质量显著提高。而为了实现这种新型的“迭代推理”,NVIDIA 的目标是继续降低 AI 的运行成本,使得 AI 能在同等成本下实现更复杂的推理能力,提升 AI 的智能水平和反应质量。



AI保持快速迭代的架构基础:从兼容性到规模扩展

AI未来的发展速度是否可以继续保持目前的水平?Jensen的答案是肯定的,但这需要一个系统化的方法,也就是各个技术的开发必须遵循统一的架构。

关于未来的技术架构,黄仁勋强调了架构兼容性的重要性。他认为,“行业对软件的投资远高于硬件,因此,开发或发布的软件必须进行长期维护。” CUDA作为NVIDIA的核心理念,体现了这种对兼容性和长期投入的坚持。

例如,在开发时为一个集群(如 Hoppers)创建的软件应该可以无缝运行在其他架构(如 Blackwell 或 Rubin)上。这种兼容性对于 AI 技术的快速发展至关重要。

他指出,行业对软件的投资比硬件高很多,因此,软件需要长期维护,保证不同架构的兼容性非常重要,这样可以让投入到一个 GPU 上的软件在其他 GPU 上也能使用,避免重复投入和浪费。

在谈及数据中心的扩展时,黄仁勋提到,从500兆瓦到5000兆瓦的升级对技术架构提出了全新挑战。为了应对这些挑战,NVIDIA通过增加功率密度、采用液冷技术以及密集化设计,将多个GPU协作处理数据,从而实现数据中心的高效运行。

数据中心的功率密度在快速增加,这个趋势几乎是指数级的增长。从12千瓦到40千瓦,再到 120 千瓦、200 千瓦的变化,未来还会继续提升。这种增长代表了每个数据中心机架的功率使用密度越来越大,以便在有限的物理空间内实现更高的计算能力。由于功率密度的增加,NVIDIA 正在尽可能地对计算进行“压缩和密集化”。这意味着他们在有限的空间内放置更多的计算能力,这样做可以提高整体效率。

黄仁勋提到,通过对数据中心进行密集化设计,NVIDIA 可以让特定机架或相邻机架中的所有 GPU 联合起来,充当一个巨大的 GPU。这意味着,多个 GPU 可以协同工作,就像一个超大规模的计算单元一样。这种设计大大增强了数据中心的整体计算能力,也进一步提高了密集化的好处。

而黄仁勋提到的数据中心功率密度的提升和计算压缩,正好是 Arm 能帮助改进的领域。Arm 的处理器架构通过高能效,可以降低整体功耗,帮助数据中心应对功率密度增加带来的冷却和能效挑战。

Arm CEO对话黄仁勋:畅谈 AI 技术未来图景,探索“人类终极边疆” (https://ic.work/) 产业洞察 第4张

Arm 的 CPU 设计对于任务的低能耗和效率有很大帮助,结合 NVIDIA 的 GPU 可以在数据中心实现更高效的任务分配和更密集的计算能力。因此,Arm 和 NVIDIA 的协同可以在数据中心的能效优化和密集化设计上带来显著的优势。

黄仁勋特别表示:“我们非常关注在每一块 Arm 芯片上投入的努力。前几天我们刚刚进行了展示。有人做了一些基准测试,结果显示,NVIDIA Grace 的每瓦性能是全球最佳 CPU 的四倍。高能效比至关重要。它是重中之重。”

结语

作为英伟达创始人,黄仁勋已经领导公司30年且取得了巨大的成功。Rene Hass对其赞叹不已:“尽管完全不清楚最终的杀手级应用或最终状态是什么,但你却有着令人难以置信的韧性去尝试各种想法并进行测试,哪怕市场似乎并未准备就绪,或尚未对其进行定义。”

Jensen笑谈到:“成功之路并不是一个成就接着一个成就。事实并非如此。作为一名首席执行官,你会遇到巨大的挫折,有时会有令人尴尬的时刻,你可能还没有完全经历过这些。但是我希望它会到来,因为这是对你有益的。在所有这些时刻中,我不确定自己具体学到了什么,但它让我变得更强大,我知道我能挺过去。我当时并不喜欢这些。但当我回想起这一切时,那些时刻让人成长。”

Arm CEO对话黄仁勋:畅谈 AI 技术未来图景,探索“人类终极边疆” (https://ic.work/) 产业洞察 第5张


左一:Rene Hass,中间:黄仁勋

文章推荐

相关推荐