DeepSeek V4 第一批预览模型来了:V4-Pro 和 V4-Flash。
两者都是 1M token 上下文的 MoE 模型,采用 MIT license,并以 open weights 形式发布。这里要把概念放准:open weights 不等于完整开源。权重开放很重要,但训练数据、训练代码、完整训练流程并不会自动开放。
这次更完整的信息把三个问题补齐了:模型到底有多大,价格到底低到什么程度,DeepSeek 为什么敢把长上下文推理成本压下去。早先只看“开放”和“百万上下文”,容易把焦点放在参数和榜单上;现在更该看的,是长上下文能不能便宜到进入生产系统。
一句话概括:V4-Pro 可能是当前最大的 open weights 模型之一,能力接近前沿但未称霸;V4-Flash 更像成本杀手,输入 $0.14/M token,输出 $0.28/M token。DeepSeek 没有把所有榜单赢完,却先把账单砍了一刀。
发生了什么:一个冲规模,一个冲成本
DeepSeek V4-Pro 的定位更接近大型前沿档:
- 1.6T 总参数,49B 激活参数
- 1M token 上下文
- Hugging Face 权重体积约 865GB
- API 价格.输入 $1.74/M token,输出 $3.48/M token
- 可能是当前最大的 open weights 模型之一
V4-Flash 则更强调低成本部署和高频调用:
- 284B 总参数,13B 激活参数
- 1M token 上下文
- Hugging Face 权重体积约 160GB
- API 价格.输入 $0.14/M token,输出 $0.28/M token
这组信息比“发布两个模型”更有解释力。V4-Pro 证明 DeepSeek 仍在向前沿能力逼近,V4-Flash 则把竞争拉到开发者最敏感的位置:每百万 token 花多少钱。
有第三方通过 OpenRouter 调用 V4-Pro 和 V4-Flash,让模型生成“骑自行车的鹈鹕”SVG,结果还不错。但这类测试只能说明模型具备一定图形代码生成能力,不能替代严肃 benchmark。真正影响采购和迁移的,仍是价格、稳定性、可部署性和长上下文表现。
为什么重要:百万上下文不稀奇,便宜的百万上下文才稀缺
长上下文已经不是新鲜词。真正的问题是:塞进去之后,能不能算得起、跑得稳、延迟别炸、账单别吓人。
DeepSeek 这次新增的锋利信息,正落在这里。论文给出的解释是效率路线:在 1M token 长上下文场景下,V4-Pro 的单 token FLOPs 只有 V3.2 的 27%,KV cache 只有 10%;V4-Flash 更激进,分别降到 10% 和 7%。
这解释了为什么 DeepSeek 敢把价格压得这么低。
| 模型 | 输入价格 | 输出价格 | 位置 |
|---|---|---|---|
| DeepSeek V4-Flash | $0.14/M | $0.28/M | 低价高频调用档 |
| GPT-5.4 Nano | $0.20/M | $1.25/M | 输出明显更贵 |
| Gemini 3.1 Flash-Lite | $0.25/M | $1.50/M | 轻量档更贵 |
| DeepSeek V4-Pro | $1.74/M | $3.48/M | 大型前沿档低价 |
| Gemini 3.1 Pro | $2/M | $12/M | 输出贵很多 |
| GPT-5.4 | $2.50/M | $15/M | 输出贵很多 |
| Claude Sonnet 4.6 | $3/M | $15/M | 输出贵很多 |
| GPT-5.5 | $5/M | $30/M | 高价前沿档 |
V4-Flash 比 GPT-5.4 Nano 还便宜,尤其是输出价格。V4-Pro 在大型前沿模型里也打到了低价区。
这不是免费午餐。低价可能来自效率,也可能夹杂市场补贴。现在能确认的是,DeepSeek 至少给出了 FLOPs 和 KV cache 下降的技术解释;还不能确认的是,这个价格能否在高并发、企业服务、海外访问、安全合规和长期供给下维持。
但市场压力已经形成。OpenAI、Google、Anthropic 最舒服的结构,是用能力领先维持高价。DeepSeek 如果把能力差距压到“可接受”,再把价格压到“很难忽视”,客户就会重新拆分任务:最难的交给最强模型,大量常规任务交给更便宜的模型。
火力不在发布会上,在采购合同里。
谁受影响:开发者和AI产品团队先动
最先受影响的是开发者,尤其是做长文档分析、代码库问答、Agent 工作流、日志审计、知识库检索的人。
这些场景有一个共同点:token 消耗大,调用频率高,输出也不小。模型单次调用贵一点,月账单就能滚成财务问题。V4-Flash 的意义就在这里,它可能让一批原本不敢常开的任务重新进入预算。
不是所有任务都需要 Claude Sonnet 或 GPT-5.4。很多企业内部工具只需要“够强、够稳、便宜到能长期跑”。如果 V4-Flash 在真实任务里表现稳定,它会先吃掉边缘任务、新项目、内部工具和低风险流程。
AI 产品团队也会很快感知。过去很多产品卡在单位经济账上:演示时很好看,真实用户一多,推理成本吃掉毛利。DeepSeek 如果能把低价维持住,产品经理会重新计算免费额度、付费套餐、后台任务频率和 Agent 调用深度。
普通用户暂时不一定直接感知。聊天框里换了哪个模型,背后成本差异未必立刻变成会员价格。但工具链会先动,用户体验随后才会变。平台迁移很少从核心系统开始,通常从边角料开始;边角料多了,就会长成新地盘。
接下来观察三件事:评测、本地部署、低价耐久性
V4 还不能被写成终局。现在能确认的是压力,不是胜利。
严肃评测要等第三方补齐。DeepSeek 自报成绩只能算线索。真实长上下文任务更难测:前文信息保持、跨段推理、代码一致性、引用准确性、工具调用稳定性,都不是一张排行榜能讲完的。
DeepSeek 自己也没有把 V4-Pro 包装成全线碾压。按其说法,V4-Pro-Max 通过扩展 reasoning tokens,在一些标准推理 benchmark 上超过 GPT-5.2 和 Gemini-3.0-Pro,但仍略低于 GPT-5.4 和 Gemini-3.1-Pro,大约落后 3 到 6 个月。
这反而让判断更清楚:DeepSeek 的威胁不是“我已经全面最强”,而是“我接近前沿,并且便宜很多”。
本地运行也要看量化进展。V4-Flash 权重约 160GB,轻量量化后有机会进入高端本地机器或私有化部署环境的射程。有人已经在关注 Unsloth 这类团队是否会推出可用量化版本。如果 Flash 能在 128GB 级别设备上跑得体面,它的意义就不只是便宜 API,还会扩展到数据敏感场景里的可控部署。
低价能撑多久,是更现实的变量。低价有两种:一种来自架构和系统效率,可以打持久战;一种来自补贴,热闹一阵就涨价。DeepSeek 给出了效率数字,但商业价格还要经受供给、并发、芯片成本、服务质量和合规成本的检验。
OpenAI、Google、Anthropic 仍有强优势:模型能力、产品生态、企业信任、云分发、安全治理、全球客户关系。这些不是一张低价表就能抹掉。
DeepSeek V4 更准确的意义,是让前沿附近的能力开始被重新估价。过去客户要么买最强,要么忍受弱很多的便宜模型。现在中间出现了更难处理的选项:能力接近、价格低很多、权重还能拿到。
企业采购不靠热血,靠预算、合规、延迟、稳定性和替换成本。谁能把成本曲线压下去,谁就有资格进下一轮谈判。
DeepSeek V4 的百万上下文是门面,效率是骨架,价格是刀口。榜首未必易主,账单已经先变天。
