£200 二手 V100 跑起本地 27B：便宜的不是奇迹，是代价后置

核心摘要 Summary

一位开发者用约 £200 买到 Tesla V100 SXM2 16GB 和非官方 PCIe 转接板，塞进已有 RTX 4080 的游戏 PC，本地跑起 27B 量化多模态模型，生成约 32 tok/s。
这说明本地 AI 的门槛正在被二手数据中心硬件和开源推理栈压低，但它不是普通用户的无脑方案。
真正的账单在后面：非标准接口、噪音、散热、旧驱动、双卡拆分损耗，都要用户自己结算。

内容导图 Mind Map

二手V100

压低本地AI门槛

跑通案例

27B本地交互可用

双卡组合

V100搭配4080

实际速度

生成约32tok/s

便宜来源

退役HBM2折价

核心资产

16GB高带宽显存

开源推理

量化降低显存压力

后置账单

省钱换来折腾

硬件风险

转接散热噪音自担

软件约束

旧驱动与双卡损耗

适用边界

开发者更适合

本地价值

隐私离线成本可控

普通用户

云端仍更省心

后续变量

便宜能否持续

价格下探

旧数据中心卡供给

软件成熟

多GPU支持变顺

一张 2017 年的数据中心 GPU，今天约 £150。再加一块约 £50 的非官方 PCIe 转接板，就被塞进了一台已有 RTX 4080 的游戏 PC。

结果不寒酸：V100 SXM2 16GB + RTX 4080 16GB，本地跑 Qwen3.6-27B-MTP Q5_K_M，128k context，全量 offload，生成约 32 tok/s，prompt processing 约 133-160 tok/s。

这事最该看的，不是“极客又整活成功”。而是个人本地 AI 的成本线被往下压了一截。云端 AI 没被推翻，但个人算力的边界被重新划了一刀。

£200 买到的核心资产，是 16GB HBM2

V100 SXM2 不是消费显卡。它没有显示输出，不是标准 PCIe 卡，本来该待在 DGX 或服务器里。

但它有一件今天仍然值钱的东西：16GB HBM2，带宽 900GB/s。这个数字高于 RTX 4080 的 736GB/s。

对 LLM 推理来说，显存容量和带宽都很要命。V100 老在架构，不老在内存。

项目	数字 / 情况	该怎么理解
V100 SXM2 16GB	约 £150	便宜的是退役资产，不是消费体验
SXM2 转 PCIe 板	约 £50	非官方方案，稳定性和保修感都别指望
V100 HBM2 带宽	900GB/s	高于 RTX 4080 的 736GB/s
双卡总显存	16GB + 16GB	不是单卡 32GB，跨 PCIe 会有损耗
模型占用	Qwen3.6-27B-MTP Q5_K_M，约 19GB	量化后才能塞进这套组合

所以别把它叫“穷人版 RTX 5090”。这不是同一种体验。

它更像一次算力折价交易：你用兼容性、噪音、驱动风险和动手时间，换来便宜的 HBM2 和更多可用显存。

天下熙熙，皆为利来。今天这个“利”，就是云 API 成本、高端显卡价格和开源推理栈成熟之间挤出来的一条缝。

它能跑，但不是插上就用

这套机器跑起来的方式很直接：llama.cpp 全量 offload，把 tensor split 分到 RTX 4080 和 V100 上。视觉能力靠约 928MB 的 mmproj 文件接入，可以处理图像输入。

实际速度约 32 tok/s。这个水平已经够交互，不是只能截图发帖的玩具。

它还能接 OpenCode，当本地代码助手用。也能通过内网或 Tailscale 访问。数据不出内网，这对开发者、小团队、隐私敏感项目有现实价值。

但坑也很具体。

卡点	现实代价
SXM2 非标准接口	必须靠非官方转接板，供电和稳定性风险自担
原风扇 82dB	放房间里很难忍，需要改 PWM 控制
Volta 驱动停在旧分支	CUDA、kernel、NixOS 配置都要卡版本
双 GPU 拆分	不是单卡大显存，PCIe tensor split 会拖性能
长期稳定性	原案例能跑，不等于长期生产可依赖

这不是给普通用户的省钱攻略。它更适合两类人。

一类是想本地跑 LLM 的开发者和极客。你会为了隐私、离线、低边际成本，接受拆机、调驱动、改风扇。

另一类是正在评估小团队 AI 工具链的人。你未必立刻采购 V100，但可以延后高端新卡采购，先观察二手数据中心卡和本地推理栈能撑到哪里。

如果你只是想要稳定、安静、售后和少折腾，别碰。买便宜硬件，最后往往是在买自己的时间。

云端没倒，本地 AI 变得更难忽视

我不太买账“本地 27B 已经击败 Claude/Opus”这种说法。

部分榜单、部分任务接近，甚至有胜负，这可以说。但云端大模型的优势不只在模型本体。它还有工具链、上下文工程、服务稳定性、持续迭代和产品封装。

可云端厂商也不能继续把本地 AI 当玩具。

32 tok/s 已经够写代码、读图、处理私有资料。接上 OpenCode，本地模型就从命令行实验变成了工作流的一部分。

分界线很清楚：

需求	更现实的选择
最强能力、少维护、团队协作	云端模型仍然更稳
隐私、离线、成本可控、愿意折腾	本地二手算力开始有吸引力
普通用户日常使用	继续用云端或成熟客户端，别被 £200 误导
开发者试验本地 agent / code assistant	可以开始认真评估这类方案

接下来真正该看的，不是又有谁把旧卡点亮了。

要看三件事：旧数据中心 GPU 的价格是否继续下探；llama.cpp 这类推理栈对多 GPU、旧架构的支持能不能继续变顺；非官方转接、散热、驱动这堆灰色成本会不会吞掉便宜本身。

这有点像早年 PC 对小型机的冲击。不完全一样。云端大模型的规模优势更强，服务粘性也更强。

但重复的是那套老逻辑：当退役硬件足够便宜，软件栈足够成熟，一部分能力就会从中心系统漏回个人桌面。

£200 的 V100 没有创造奇迹。它只是提醒我们，上一轮算力周期淘汰下来的硬件，正在给下一轮个人 AI 补便宜票。

锐评 Commentary

旧卡没让云端倒下，但让本地 AI 少了一层门槛。便宜是真的，账单也是真的。

Tesla V100 SXM2本地 AI二手数据中心硬件GPUHBM2RTX 4080Qwen3.6-27B-MTP多模态模型VRAM开源推理栈