一张 2017 年的数据中心 GPU,今天约 £150。再加一块约 £50 的非官方 PCIe 转接板,就被塞进了一台已有 RTX 4080 的游戏 PC。
结果不寒酸:V100 SXM2 16GB + RTX 4080 16GB,本地跑 Qwen3.6-27B-MTP Q5_K_M,128k context,全量 offload,生成约 32 tok/s,prompt processing 约 133-160 tok/s。
这事最该看的,不是“极客又整活成功”。而是个人本地 AI 的成本线被往下压了一截。云端 AI 没被推翻,但个人算力的边界被重新划了一刀。
£200 买到的核心资产,是 16GB HBM2
V100 SXM2 不是消费显卡。它没有显示输出,不是标准 PCIe 卡,本来该待在 DGX 或服务器里。
但它有一件今天仍然值钱的东西:16GB HBM2,带宽 900GB/s。这个数字高于 RTX 4080 的 736GB/s。
对 LLM 推理来说,显存容量和带宽都很要命。V100 老在架构,不老在内存。
| 项目 | 数字 / 情况 | 该怎么理解 |
|---|---|---|
| V100 SXM2 16GB | 约 £150 | 便宜的是退役资产,不是消费体验 |
| SXM2 转 PCIe 板 | 约 £50 | 非官方方案,稳定性和保修感都别指望 |
| V100 HBM2 带宽 | 900GB/s | 高于 RTX 4080 的 736GB/s |
| 双卡总显存 | 16GB + 16GB | 不是单卡 32GB,跨 PCIe 会有损耗 |
| 模型占用 | Qwen3.6-27B-MTP Q5_K_M,约 19GB | 量化后才能塞进这套组合 |
所以别把它叫“穷人版 RTX 5090”。这不是同一种体验。
它更像一次算力折价交易:你用兼容性、噪音、驱动风险和动手时间,换来便宜的 HBM2 和更多可用显存。
天下熙熙,皆为利来。今天这个“利”,就是云 API 成本、高端显卡价格和开源推理栈成熟之间挤出来的一条缝。
它能跑,但不是插上就用
这套机器跑起来的方式很直接:llama.cpp 全量 offload,把 tensor split 分到 RTX 4080 和 V100 上。视觉能力靠约 928MB 的 mmproj 文件接入,可以处理图像输入。
实际速度约 32 tok/s。这个水平已经够交互,不是只能截图发帖的玩具。
它还能接 OpenCode,当本地代码助手用。也能通过内网或 Tailscale 访问。数据不出内网,这对开发者、小团队、隐私敏感项目有现实价值。
但坑也很具体。
| 卡点 | 现实代价 |
|---|---|
| SXM2 非标准接口 | 必须靠非官方转接板,供电和稳定性风险自担 |
| 原风扇 82dB | 放房间里很难忍,需要改 PWM 控制 |
| Volta 驱动停在旧分支 | CUDA、kernel、NixOS 配置都要卡版本 |
| 双 GPU 拆分 | 不是单卡大显存,PCIe tensor split 会拖性能 |
| 长期稳定性 | 原案例能跑,不等于长期生产可依赖 |
这不是给普通用户的省钱攻略。它更适合两类人。
一类是想本地跑 LLM 的开发者和极客。你会为了隐私、离线、低边际成本,接受拆机、调驱动、改风扇。
另一类是正在评估小团队 AI 工具链的人。你未必立刻采购 V100,但可以延后高端新卡采购,先观察二手数据中心卡和本地推理栈能撑到哪里。
如果你只是想要稳定、安静、售后和少折腾,别碰。买便宜硬件,最后往往是在买自己的时间。
云端没倒,本地 AI 变得更难忽视
我不太买账“本地 27B 已经击败 Claude/Opus”这种说法。
部分榜单、部分任务接近,甚至有胜负,这可以说。但云端大模型的优势不只在模型本体。它还有工具链、上下文工程、服务稳定性、持续迭代和产品封装。
可云端厂商也不能继续把本地 AI 当玩具。
32 tok/s 已经够写代码、读图、处理私有资料。接上 OpenCode,本地模型就从命令行实验变成了工作流的一部分。
分界线很清楚:
| 需求 | 更现实的选择 |
|---|---|
| 最强能力、少维护、团队协作 | 云端模型仍然更稳 |
| 隐私、离线、成本可控、愿意折腾 | 本地二手算力开始有吸引力 |
| 普通用户日常使用 | 继续用云端或成熟客户端,别被 £200 误导 |
| 开发者试验本地 agent / code assistant | 可以开始认真评估这类方案 |
接下来真正该看的,不是又有谁把旧卡点亮了。
要看三件事:旧数据中心 GPU 的价格是否继续下探;llama.cpp 这类推理栈对多 GPU、旧架构的支持能不能继续变顺;非官方转接、散热、驱动这堆灰色成本会不会吞掉便宜本身。
这有点像早年 PC 对小型机的冲击。不完全一样。云端大模型的规模优势更强,服务粘性也更强。
但重复的是那套老逻辑:当退役硬件足够便宜,软件栈足够成熟,一部分能力就会从中心系统漏回个人桌面。
£200 的 V100 没有创造奇迹。它只是提醒我们,上一轮算力周期淘汰下来的硬件,正在给下一轮个人 AI 补便宜票。
