RTX AI PC和工作站提供强大AI性能

2024-08-23

由 NVIDIA RTX 和 GeForce RTX 技术驱动的 AI PC 时代已经到来。在这一背景下，一种评估 AI 加速性能的新方法应运而生，同时还带来了一套新术语，这套术语成了用户选择台式电脑和笔记本电脑的参考标准。

虽然 PC 游戏玩家了解每秒帧数（FPS）及类似的统计数据，但衡量 AI 性能需要新的指标。

TOPS 脱颖而出

TOPS，即每秒万亿次运算是首要的基准指标。“万亿”是这里的关键词：生成式 AI 任务背后的处理运算量是巨大的。您可以将 TOPS 视为原始性能指标，类似于发动机的额定功率。这个数值自然是越大越好。

例如，比较一下微软最近发布的 Windows 11 AI PC，其中就包含每秒至少可执行 40 万亿次运算的神经处理单元（NPU）。40 TOPS 的算力足以胜任一些轻量级 AI 辅助任务，例如询问本地聊天机器人昨天的笔记在哪里。

但许多生成式 AI 的算力需求远不止于此。NVIDIA RTX 和 GeForce RTX GPU 可在所有生成式任务中提供卓越的性能，其中 GeForce RTX 4090 GPU 的算力可达 1177 TOPS。这就是处理 AI 辅助数字内容创作（DCC）、PC 游戏 AI 超分辨率、根据文本或视频生成图像、与本地大语言模型（LLM）交互等任务所需的算力。

以 Token 衡量性能

TOPS 只是一项基础衡量指标。LLM 的性能以模型生成的 Token 数量来衡量。

Token 是 LLM 的输出，它可以是句子中的一个词，甚至可以是标点符号或空格这类更小的片段。AI 加速任务的性能可以用“每秒 Token 数”来衡量。

另一个重要因素则是 batch size，也就是在一次推理过程中可同时处理的输入数量。由于大语言模型（LLM）是许多现代 AI 系统的核心，处理多个输入（例如来自单个应用或跨多个应用）的能力将成为关键的差异化因素。虽然较大的 batch size 可以提升并发输入的性能，但也需要占用更多的内存，尤其是运行较大的模型时。

RTX GPU 非常适合 LLM，因为它们拥有大量专用的显存（VRAM）、Tensor Core 和 TensorRT-LLM 软件。

GeForce RTX GPU 最多可提供 24GB 的高速 VRAM，而 NVIDIA RTX GPU 最多可提供 48GB 的高速 VRAM，可支持更大的模型和更大的 batch size。RTX GPU 还可利用 Tensor Core，这是一种专用的 AI 加速器，可显著加速深度学习和生成式 AI 模型中的计算密集型运算。应用在使用 NVIDIA TensorRT 软件开发套件（SDK）的情况下可轻松实现超高性能。该套件可在超过 1 亿台由 RTX GPU 驱动的 Windows PC 和工作站上解锁超高性能生成式 AI。

结合了大显存、专用 AI 加速器和优化的软件，RTX GPU 的吞吐量得到了巨大提升，尤其是在 batch size 增加的情况下。

文本生图像，速度超以往

测量图像生成速度是评估性能的另一种方法。最直接的一个方法是使用 Stable Diffusion，这是一种基于图像的热门 AI 模型，可让用户轻松地将文本描述转换为复杂的视觉画面。

借由 Stable Diffusion，用户可以通过输入关键词快速获得想要的图像相比于 CPU 或 NPU，使用 RTX GPU 运行 AI 模型时可以更快生成所需结果。

在热门的 Automatic1111 界面使用 TensorRT 扩展程序时，相应性能表现甚至会更好。借助 SDXL 模型，RTX 用户通过提示生成图像的速度至多可提升至原来的 2 倍，这可大幅简化 Stable Diffusion 工作流。

另一个热门的 Stable Diffusion 用户界面 ComfyUI 在上周也支持了 TensorRT 加速。现在，RTX 用户文生图的速度可提升多达 60%。RTX 用户还可使用 Stable Video Diffusion 将这些图像转换为视频，在 TensorRT 的助力下，转换速度甚至可提升多达 70%。

全新的 UL Procyon AI 图像生成基准测试现已支持 TensorRT 加速。与最快的非 TensorRT 加速状态相比，TensorRT 加速可在 GeForce RTX 4080 SUPER GPU 上带来 50% 的速度提升。

适用于 Stable Diffusion 3 的 TensorRT 加速近期发布，前者是 Stability AI 备受期待的全新文本转图像模型。此外，全新的 TensorRT-Model Optimizer 可进一步提升性能。与非 TensorRT 加速状态相比，它可带来显著的速度提升，同时减少显存消耗。

当然，眼见方能为实。真正的考验来自于不断迭代提示词这种真实场景。在 RTX GPU 上，用户通过改进提示词来优化图像的速度可得到显著提升，每次迭代只需数秒即可完成。而在 Macbook Pro M3 Max 上，完成相同的迭代需要耗费数分钟。此外，如果在由 RTX 驱动的 PC 或工作站上本地运行，用户可以同时享受到速度和安全性方面的优势，并让所有内容保持私密。

测试结果出炉，相关技术开源

不过，且不要仅听我们的一面之词。开源的 Jan.ai 背后的 AI 研究人员和工程师团队最近将 TensorRT-LLM 集成到了其本地聊天机器人应用中，然后亲自测试了这些优化效果。

研究人员在社区使用的各种 GPU 和 CPU 上，以开源的 llama.cpp 推理引擎为对照，测试了 TensorRT-LLM 的实际表现。他们发现 TensorRT“在相同硬件上比 llama.cpp 快 30-70%”，并且在进行连续处理时效率更高。该团队还提供了测试方法，邀请其他人亲自测试生成式 AI 的性能。

无论是游戏还是生成式 AI，速度才是其致胜法宝。在确定性能冠军时，TOPS、每秒 Token 数和 batch size 均需纳入考量。

文章推荐

RTX AI PC和工作站提供强大AI性能

相关推荐

CAN总线工作原理分析 CAN总线在汽车工业中的应用

使用CAN总线进行数据采集的方法

CET中电技术获工信部第二届能源电子产业创新大赛重点终端应用赛道二等奖

车载SBC芯片，国产化进展如何？

手机直连卫星市场崛起！华为首发三网卫星通信手机，四大芯片厂商跟进

日本防卫省首次推出促进人工智能应用的基本政策

CAN总线与其他通信协议对比

第二届开放原子开源大赛圆满落幕

扬杰科技登榜“2024中国半导体企业TOP100”

人形机器人将迎量产元年，人机共生时代要来了？

推荐

VCSEL芯片和光学解决方案提供商瑞识科技完成近亿元B1轮融资

一文带你搞懂开关电源电路

PLL锁相环：工作原理简述，高效同步控制的核心技术。

模拟芯片与数字芯片各有独特优势，各具魅力，吸引你的目光。

阿诗特能源L1000液冷新品震撼上市，卓越性能，引领未来！

本征半导体，基础材料之选，了解它，掌握电子世界的关键！

国产替代奋进高端，创新引领，开启替代新篇章。

STM32单片机简介

高压智能电池检流器USB，HV-IBSS-USB，高效便捷，轻松检测电池状态。

国产化加速，GE医疗MR东半球总部落户，共创医疗新篇章！

最近更新

偷偷找台积电代工？又一中企拟被列入实体清单！

Viettel High Tech签署数百万美元合同，为中东部署5G网络

CCD工业相机系统设计——基于FPGA设计

基于Verilog编程的自动饮料售卖机的设计与实现

FPGA驱动AD芯片：实现与芯片的高效通信

Verilog实现低通滤波器于FPGA平台：设计与优化策略

FPGA算法硬件加速：实现方法与详细步骤解析

Vivado之实现（布局布线）流程浅析

基于Verilog的数字滤波器设计：消除信号毛刺的有效策略

优化四级MUX关键信号时序：一种创新策略