一台2RU服务器,塞进接近10PB全闪存。

这个数字放在几年前,听起来更像定制存储柜的宣传语。现在它出现在戴尔PowerEdge R7725xd里:AMD EPYC 9005平台,40块Kioxia LC9 E3.L 245.76TB QLC NVMe SSD,整机原始容量约9.8PB,网络侧最高支持5个400Gbps NIC。

我更在意的不是单盘容量又大了一圈,而是这类245TB到256TB级QLC SSD,开始被放进标准服务器形态里讨论。它不再只是一张路线图,也不只是厂商秀肌肉。

这会影响一批很具体的人:企业存储架构师要重新算容量层怎么分;AI基础设施采购和运维团队要判断,哪些数据池可以从近线硬盘迁到高密度全闪存,哪些还应该继续等。

2RU约9.8PB,容量只是第一层信息

PowerEdge R7725xd是戴尔面向高密度存储的服务器。此次配置的核心,是40块Kioxia LC9 E3.L 245.76TB NVMe SSD。

按标称容量算,单机原始容量接近9.8PB。如果一个机架放满20台,理论原始容量约196PB。

项目配置对架构的含义
服务器Dell PowerEdge R7725xd标准2RU服务器形态
处理器平台AMD EPYC 9005面向高I/O和高密度节点
SSD40块Kioxia LC9 E3.L 245.76TB NVMe单机约9.8PB原始容量
满机架容量20台约196PB机房占用大幅压缩
网络最高5个400Gbps NIC不只堆容量,也考虑数据进出

这里容易被忽略的是网络。

近10PB数据放在一台服务器里,如果网卡跟不上,节点会变成一个很贵的仓库。最高5个400Gbps NIC,说明这个配置瞄准的不是“能存就行”,而是要让数据进得来、出得去。

这对AI数据摄取尤其关键。训练前的数据清洗、格式转换、样本分发,很多时候卡在数据搬运,而不只是卡在GPU。对备份系统也一样,窗口期越短,吞吐越重要。

谁会先动:AI数据池、数据湖和备份库

Kioxia和戴尔指向的场景,主要是AI数据摄取、数据湖和大规模备份。它们有一个共同点:容量很大,访问模式相对可预测,对机房空间和运维复杂度敏感。

企业存储架构师可以先做一件事:把现有容量层拆成三类。

数据类型更可能适合高密度QLC SSD仍可能留在HDD或其他层
AI原始数据和预处理数据需要较快读取、频繁批量扫描长期冷归档
数据湖活跃分区查询和批处理较多很少访问的历史分区
备份与快速恢复库重视恢复窗口和占地极低成本离线留存
核心交易数据库未必适合直接迁移更看重延迟、耐久和稳定写入

对AI基础设施采购负责人,动作会更直接:不要只问“每TB多少钱”。还要问每机架能提供多少可用吞吐、能省多少机柜和交换端口、恢复或重建时会不会拖垮业务。

对运维团队,重点是少节点带来的两面性。节点少,机柜、布线、电力和维护对象都会减少。但单盘容量变大后,故障重建的风险也会集中。

这就是高密度的代价。

一块245.76TB SSD失效,不等于过去一块小盘失效。纠删码、校验、重建限速、后台任务调度,都会变成设计题。软件栈如果没有跟上,硬件密度反而会把风险放大。

所以这类配置更适合先进入容量型全闪存池,而不是被拿去替代所有TLC SSD或低延迟存储。QLC通常更适合读多写少、批量访问、写入放大可控的负载。把它和DRAM级存储比较延迟,没有意义。

近线硬盘会被挤压,但不会立刻出局

256TB级QLC SSD的竞争已经排开。

Micron有6600 ION,Sandisk有UltraQLC SN670,SK Hynix和Solidigm也在推进高容量QLC路线。三星也被Scality提到在规划近线级SSD,路线甚至指向1PB级单盘。

厂商相关产品或路线主要看点
KioxiaLC9 245.76TB QLC已进入戴尔PowerEdge配置展示
Micron6600 ION面向快速访问容量层
SandiskUltraQLC SN670256TB级AI负载SSD路线
SK Hynix / Solidigm高容量QLC SSD延续数据中心QLC布局
Samsung未来近线SSD路线可能瞄准HDD容量层

这并不等于HDD马上被淘汰。

近线硬盘仍有自己的位置。每TB成本、供应规模、冷数据归档、既有运维体系,都是现实优势。很多企业也不会因为一台2RU服务器能装下近10PB,就立刻改掉整套容量层架构。

真正先被挤压的,是中间地带:嫌HDD慢,又嫌传统全闪存太贵;数据不是最冷,也不是最高性能负载。AI数据池、活跃归档、快速备份库、部分对象存储热层,都在这个区间。

采购上,我不建议只盯单机容量下单。更稳的做法是把观察点压到四个变量上:

  • 这类配置是否形成可稳定采购的正式SKU,而不只是展示配置;
  • 245TB/256TB级QLC的实际价格、DWPD和保修条款;
  • 单盘数百TB时代,存储软件的故障重建时间和性能退化;
  • 最高5个400Gbps NIC能否在真实业务里被CPU、PCIe、网络和软件栈一起喂满。

容量数字已经足够吸引人。接下来要看账本。

如果每TB成本、电费、机柜、交换机端口和运维人力合在一起,比近线硬盘更划算,QLC就会吃掉一批容量层需求。若价格和重建风险压不下来,它会先留在少数高价值场景里。