每问一次 ChatGPT,背后都不是 GPU 一路狂奔。数据要从内存出来,经过 CPU 预处理,再去 GPU 计算,再回到内存系统。生成一个词,跑一趟;生成一段话,跑很多趟。
韩国/美国芯片初创公司 XCENA 刚拿到 1.35 亿美元 B 轮融资,估值 5.7 亿美元。它赌的不是 GPU 更强,而是 AI 推理的真成本正在暴露:数据搬得太远、太慢、太费电。
这家公司押的不是 GPU,而是内存旁边的计算
XCENA 成立于 2022 年,在韩国和美国都有办公室。创始团队来自三星和 SK 海力士,这个背景很有指向性:它不是从模型圈杀出来,而是从内存产业链往 AI 基建里切。
| 关键信息 | 当前可确认内容 |
|---|---|
| 公司 | XCENA,韩国/美国芯片初创公司 |
| 成立时间 | 2022 年 |
| 本轮融资 | 1.35 亿美元 B 轮 |
| 最新估值 | 5.7 亿美元 |
| 累计融资 | 1.85 亿美元 |
| 团队背景 | 来自三星、SK 海力士 |
| 产品方向 | MX1,通过 CXL 连接 CPU,把部分计算放到更靠近 DRAM 的位置 |
MX1 的核心思路,是减少 CPU、GPU、内存之间的数据往返。它不是把 GPU 直接踢出局,而是试图处理那些“不该绕远路”的数据任务。
公司声称,某些原本需要 10 台服务器的任务,未来可能压到 1 台。
这句话必须加粗线框。它是公司说法,不是独立验证。成立条件也很硬:负载要匹配,软件栈要配合,CXL 环境要稳定,客户还得愿意改架构。
对云厂商和大模型服务商来说,这类方案如果跑通,最直接的诱惑不是“概念先进”,而是采购量、机柜、电费和延迟账能不能降下来。对投资人来说,问题更简单:这家公司能不能从 GPU 叙事的缝隙里,切到一个真预算项。
推理阶段,FLOPS 不是唯一账本
过去两年,AI 基建几乎被 GPU 叙事统治。大家盯 FLOPS、显存、集群规模。训练阶段这么看没错,像集中烧炉子,火力越猛越好。
推理不一样。推理像全天候开水龙头。用户每问一句,系统都要处理上下文、调度缓存、管理 KV cache、搬运中间数据。并发越高、上下文越长,内存带宽、延迟和能耗越容易变成账房先生。
AI 推理的成本,不只来自矩阵乘法。
| 成本环节 | 主要压力 | 谁会先感到疼 |
|---|---|---|
| 矩阵计算 | GPU 算力、显存 | 大模型训练方、推理服务商 |
| KV cache | 内存容量、带宽、调度 | 长上下文应用、聊天机器人、Agent 服务 |
| 数据搬运 | CPU/GPU/内存往返、延迟、能耗 | 云厂商、数据中心运营方 |
| 预处理与编排 | CPU 负载、软件栈复杂度 | 推理平台团队、基础设施工程师 |
这就是 XCENA 的切口。它盯的不是最性感的矩阵计算,而是那些长期被藏在系统账本里的搬运成本。
三星、SK 海力士、Micron 等内存巨头估值上升,也给这条叙事加了背景音。不能把内存价格和 XCENA 成功画等号,中间隔着产品化、客户验证和采购决策。但资金确实在重新估算一件事:AI 的利润池不只在 GPU,也在 HBM、DRAM、带宽和能耗管理里。
这有点像 PC 时代的“CPU 主频崇拜”。主频涨到一定程度,系统瓶颈会跑到内存、I/O、散热和软件上。不完全一样,但逻辑相通:单点性能继续拉高,系统里的慢环节就会露出来。
“天下熙熙,皆为利来。”资本不是突然爱上内存工程学。它只是闻到了下一段成本优化的钱味。
真门槛在采购单上,不在架构图里
我认同 XCENA 押的方向。AI 推理规模越大,把数据来回搬的代价越刺眼。继续只堆 GPU,像给拥堵城市只换更大马力的车,不修路、不改信号灯。
但我不买“GPU 替代者”这个讲法。至少现在还不该这么说。
XCENA 真正要过的关,不是把 PPT 里的架构图画圆。它要证明 MX1 在真实推理负载里能稳定降低服务器数量、延迟和能耗。还要证明这套东西能进现有数据中心,而不是逼客户重写一整套基础设施。
最该观察的变量很具体:
| 观察变量 | 为什么关键 |
|---|---|
| 真实负载测试 | 公司声称的“10 台变 1 台”能否在客户场景复现 |
| CXL 部署稳定性 | 标准存在不等于大规模部署成熟 |
| 软件生态适配 | 推理框架、调度系统、缓存管理要能吃到收益 |
| 客户验证 | 云厂商和大型 AI 服务商是否愿意试点甚至采购 |
| 供应链合作 | 初创公司能否拿到制造、内存、服务器 OEM 的配合 |
对企业采购团队来说,现在更合理的动作不是立刻迁移,而是把这类近内存计算方案列进评估池。尤其是长上下文、多并发、推理成本高的业务,可以拿真实负载去测,而不是听峰值参数。
对基础设施团队来说,重点也不是追新芯片名字。该盯的是 KV cache、内存带宽、延迟、能耗和调度开销。谁能把这些指标压下来,谁才是真的在改推理成本。
更硬的现实是,AI 基建的控制权不在初创公司手里。云厂商、GPU 巨头、内存大厂、服务器 OEM 都有自己的算盘。初创公司想插进来,芯片好只是入场券。让既有玩家让出位置,才是难题。
CXL 也还没到“插上就改造数据中心”的阶段。标准是一回事,生态是一回事。实验室能跑是一回事,大规模部署后少掉链子,又是另一回事。
所以 XCENA 的价值,目前不在它已经证明了什么,而在它把问题切到了一个更硬的地方:GPU 热潮之后,AI 成本战会越来越像内存战、带宽战、能耗战。
如果 MX1 能在真实推理场景里把服务器数量、能耗和延迟打下来,它就不是边缘优化,而是基础设施账本里的实打实减法。若不能,它至少提醒市场:模型看着更强,产品反而更贵,很多时候不是算力不够,而是数据堵在路上。
这轮融资的意义也在这里。钱开始承认,AI 的下一堵墙可能不在算力峰值,而在内存门口。
