DeepSeek V4 系列先来了两个预览模型:DeepSeek-V4-Pro 和 DeepSeek-V4-Flash。两者都是 100 万 token 上下文、MoE 架构,采用 MIT license,权重已开放。

它没有把 GPT、Gemini、Claude 的最强型号一脚踢下台。DeepSeek 论文里也写得很克制:V4-Pro-Max 在标准推理 benchmark 上仍略落后 GPT-5.4 和 Gemini 3.1 Pro,大约差 3 到 6 个月。可这次真正刺眼的不是榜单位置,而是价格。

规格够大,价格更狠

V4-Pro 是大模型路线。1.6T 总参数,49B active,Hugging Face 文件约 865GB。按公开权重规模看,它很可能已经超过 Kimi K2.6 的 1.1T、GLM-5.1 的 754B,成为当前最大的 open weights 模型之一。

V4-Flash 更像开发者会先拿来试的版本。284B 总参数,13B active,文件约 160GB。Simon Willison 提到,他期待轻量量化后的 Flash 能在 128GB M5 MacBook Pro 上运行;这只是期待,不是已验证结论。

模型核心规格API 价格更适合谁
DeepSeek V4-Flash284B 总参数,13B active,160GB$0.14/M 输入,$0.28/M 输出高频调用、长上下文但不追求最强推理的应用团队
DeepSeek V4-Pro1.6T 总参数,49B active,865GB$1.74/M 输入,$3.48/M 输出想要接近前沿能力、又对成本敏感的企业和开发者
Gemini 3.1 Pro闭源前沿模型$2/M 输入,$12/M 输出更看重顶级能力、生态和稳定性的团队
GPT-5.4闭源前沿模型$2.50/M 输入,$15/M 输出已深度绑定 OpenAI 工具链的团队
Claude Sonnet 4.6闭源前沿模型$3/M 输入,$15/M 输出重视写作、代码、企业集成体验的团队

这里要分清边界:open weights 不等于完全开源。MIT license 给了使用和商用更宽的空间,但训练数据、训练代码、完整训练流程并没有因此自动公开。

对开发者来说,动作很直接:先别急着迁全量生产流量。更现实的做法是把低风险、高频、长上下文任务切一部分出来做 A/B 测试,比如文档问答、代码库检索、客服摘要、合同初筛。

低价来自效率叙事,不该直接写成补贴

DeepSeek 给出的解释是效率。论文称,在 100 万 token 场景下,V4-Pro 的单 token FLOPs 只有 V3.2 的 27%,KV cache 只有 10%;V4-Flash 更低,FLOPs 为 10%,KV cache 为 7%。

这比“参数又变大了”更关键。长上下文贵,不只贵在生成答案。贵在把大量上下文塞进去、保住状态、继续推理。KV cache 就是这类模型的水电账单。

如果这些数字能被实际调用体验支撑,DeepSeek 的低价就不是单纯喊价,而是把成本结构往下压。注意,是“如果”。目前能确认的是论文自述和官方定价,不能直接推出它一定长期低价、一定稳定服务、一定适合所有生产场景。

“天下熙熙,皆为利来。”放到模型 API 市场,就是 token 价格会改写技术路线。企业不会天天为 benchmark 第一名买单。它们更常问:一百万次客服摘要多少钱?一整套代码审查多少钱?一个合规文档库跑一年多少钱?

DeepSeek 这次打中的不是发布会掌声,而是采购表格。

受影响最大的是两类团队

第一类是 AI 应用团队和 SaaS 厂商。它们调用量大,利润薄,对输出 token 价格很敏感。V4-Flash 如果质量够稳,会让这些团队重新算账:哪些任务必须用最强闭源模型,哪些可以降档到更便宜的 open weights 模型。

这类团队接下来最该做三件事:抽样自己的真实任务,比较答案质量;测延迟和失败率;按月调用量重算成本。不要只看单次 demo。模型省不省钱,要放进生产流量里看。

第二类是企业内部工具团队。它们常处理长文档、代码仓库、会议纪要、客服记录。100 万 token 上下文很诱人,但也容易制造幻觉:上下文放得下,不等于答案一定可靠。

企业采购可以延后一点。不是观望情绪,而是等三项证据:独立 benchmark 是否复现 DeepSeek 的竞争力;量化版 Flash 在本地设备或私有环境里是否稳定;API 低价是否能在高并发下维持服务质量。

闭源前沿模型也不是没有护城河。OpenAI、Google、Anthropic 还有工具链、生态、合规、稳定性和品牌信任。DeepSeek V4 现在更像把价格纪律打进了市场,而不是直接完成替代。

铁路史上,真正改变商业版图的未必是最快的车,而是把每吨每公里成本降下来的系统。AI 也类似。最强模型决定天花板,便宜模型决定普及速度。DeepSeek 没赢王座,但它让王座旁边的价签变得难看了。