一张 2017 年的数据中心 GPU,今天约 £150。再加一块约 £50 的非官方 PCIe 转接板,就被塞进了一台已有 RTX 4080 的游戏 PC。

结果不寒酸:V100 SXM2 16GB + RTX 4080 16GB,本地跑 Qwen3.6-27B-MTP Q5_K_M,128k context,全量 offload,生成约 32 tok/s,prompt processing 约 133-160 tok/s。

这事最该看的,不是“极客又整活成功”。而是个人本地 AI 的成本线被往下压了一截。云端 AI 没被推翻,但个人算力的边界被重新划了一刀。

£200 买到的核心资产,是 16GB HBM2

V100 SXM2 不是消费显卡。它没有显示输出,不是标准 PCIe 卡,本来该待在 DGX 或服务器里。

但它有一件今天仍然值钱的东西:16GB HBM2,带宽 900GB/s。这个数字高于 RTX 4080 的 736GB/s。

对 LLM 推理来说,显存容量和带宽都很要命。V100 老在架构,不老在内存。

项目数字 / 情况该怎么理解
V100 SXM2 16GB约 £150便宜的是退役资产,不是消费体验
SXM2 转 PCIe 板约 £50非官方方案,稳定性和保修感都别指望
V100 HBM2 带宽900GB/s高于 RTX 4080 的 736GB/s
双卡总显存16GB + 16GB不是单卡 32GB,跨 PCIe 会有损耗
模型占用Qwen3.6-27B-MTP Q5_K_M,约 19GB量化后才能塞进这套组合

所以别把它叫“穷人版 RTX 5090”。这不是同一种体验。

它更像一次算力折价交易:你用兼容性、噪音、驱动风险和动手时间,换来便宜的 HBM2 和更多可用显存。

天下熙熙,皆为利来。今天这个“利”,就是云 API 成本、高端显卡价格和开源推理栈成熟之间挤出来的一条缝。

它能跑,但不是插上就用

这套机器跑起来的方式很直接:llama.cpp 全量 offload,把 tensor split 分到 RTX 4080 和 V100 上。视觉能力靠约 928MB 的 mmproj 文件接入,可以处理图像输入。

实际速度约 32 tok/s。这个水平已经够交互,不是只能截图发帖的玩具。

它还能接 OpenCode,当本地代码助手用。也能通过内网或 Tailscale 访问。数据不出内网,这对开发者、小团队、隐私敏感项目有现实价值。

但坑也很具体。

卡点现实代价
SXM2 非标准接口必须靠非官方转接板,供电和稳定性风险自担
原风扇 82dB放房间里很难忍,需要改 PWM 控制
Volta 驱动停在旧分支CUDA、kernel、NixOS 配置都要卡版本
双 GPU 拆分不是单卡大显存,PCIe tensor split 会拖性能
长期稳定性原案例能跑,不等于长期生产可依赖

这不是给普通用户的省钱攻略。它更适合两类人。

一类是想本地跑 LLM 的开发者和极客。你会为了隐私、离线、低边际成本,接受拆机、调驱动、改风扇。

另一类是正在评估小团队 AI 工具链的人。你未必立刻采购 V100,但可以延后高端新卡采购,先观察二手数据中心卡和本地推理栈能撑到哪里。

如果你只是想要稳定、安静、售后和少折腾,别碰。买便宜硬件,最后往往是在买自己的时间。

云端没倒,本地 AI 变得更难忽视

我不太买账“本地 27B 已经击败 Claude/Opus”这种说法。

部分榜单、部分任务接近,甚至有胜负,这可以说。但云端大模型的优势不只在模型本体。它还有工具链、上下文工程、服务稳定性、持续迭代和产品封装。

可云端厂商也不能继续把本地 AI 当玩具。

32 tok/s 已经够写代码、读图、处理私有资料。接上 OpenCode,本地模型就从命令行实验变成了工作流的一部分。

分界线很清楚:

需求更现实的选择
最强能力、少维护、团队协作云端模型仍然更稳
隐私、离线、成本可控、愿意折腾本地二手算力开始有吸引力
普通用户日常使用继续用云端或成熟客户端,别被 £200 误导
开发者试验本地 agent / code assistant可以开始认真评估这类方案

接下来真正该看的,不是又有谁把旧卡点亮了。

要看三件事:旧数据中心 GPU 的价格是否继续下探;llama.cpp 这类推理栈对多 GPU、旧架构的支持能不能继续变顺;非官方转接、散热、驱动这堆灰色成本会不会吞掉便宜本身。

这有点像早年 PC 对小型机的冲击。不完全一样。云端大模型的规模优势更强,服务粘性也更强。

但重复的是那套老逻辑:当退役硬件足够便宜,软件栈足够成熟,一部分能力就会从中心系统漏回个人桌面。

£200 的 V100 没有创造奇迹。它只是提醒我们,上一轮算力周期淘汰下来的硬件,正在给下一轮个人 AI 补便宜票。