DeepSeek V4 Pro/Flash开放：百万上下文只是门面，真正的刀口是API价格

核心摘要 Summary

DeepSeek V4-Pro 和 V4-Flash 以 open weights 形式发布，主打 1M token 上下文、MoE 架构和 MIT license。
更关键的新信息是参数规模、API 价格和效率指标：V4-Pro 接近前沿但更便宜，V4-Flash 则把长上下文调用价格压到很低。
榜单还没有彻底改写，企业和开发者的预算表已经先被改写。

DeepSeek V4 第一批预览模型来了：V4-Pro 和 V4-Flash。

两者都是 1M token 上下文的 MoE 模型，采用 MIT license，并以 open weights 形式发布。这里要把概念放准：open weights 不等于完整开源。权重开放很重要，但训练数据、训练代码、完整训练流程并不会自动开放。

这次更完整的信息把三个问题补齐了：模型到底有多大，价格到底低到什么程度，DeepSeek 为什么敢把长上下文推理成本压下去。早先只看“开放”和“百万上下文”，容易把焦点放在参数和榜单上；现在更该看的，是长上下文能不能便宜到进入生产系统。

一句话概括：V4-Pro 可能是当前最大的 open weights 模型之一，能力接近前沿但未称霸；V4-Flash 更像成本杀手，输入 $0.14/M token，输出 $0.28/M token。DeepSeek 没有把所有榜单赢完，却先把账单砍了一刀。

发生了什么：一个冲规模，一个冲成本

DeepSeek V4-Pro 的定位更接近大型前沿档：

1.6T 总参数，49B 激活参数
1M token 上下文
Hugging Face 权重体积约 865GB
API 价格.输入 $1.74/M token，输出 $3.48/M token
可能是当前最大的 open weights 模型之一

V4-Flash 则更强调低成本部署和高频调用：

284B 总参数，13B 激活参数
1M token 上下文
Hugging Face 权重体积约 160GB
API 价格.输入 $0.14/M token，输出 $0.28/M token

这组信息比“发布两个模型”更有解释力。V4-Pro 证明 DeepSeek 仍在向前沿能力逼近，V4-Flash 则把竞争拉到开发者最敏感的位置：每百万 token 花多少钱。

有第三方通过 OpenRouter 调用 V4-Pro 和 V4-Flash，让模型生成“骑自行车的鹈鹕”SVG，结果还不错。但这类测试只能说明模型具备一定图形代码生成能力，不能替代严肃 benchmark。真正影响采购和迁移的，仍是价格、稳定性、可部署性和长上下文表现。

为什么重要：百万上下文不稀奇，便宜的百万上下文才稀缺

长上下文已经不是新鲜词。真正的问题是：塞进去之后，能不能算得起、跑得稳、延迟别炸、账单别吓人。

DeepSeek 这次新增的锋利信息，正落在这里。论文给出的解释是效率路线：在 1M token 长上下文场景下，V4-Pro 的单 token FLOPs 只有 V3.2 的 27%，KV cache 只有 10%；V4-Flash 更激进，分别降到 10% 和 7%。

这解释了为什么 DeepSeek 敢把价格压得这么低。

模型	输入价格	输出价格	位置
DeepSeek V4-Flash	$0.14/M	$0.28/M	低价高频调用档
GPT-5.4 Nano	$0.20/M	$1.25/M	输出明显更贵
Gemini 3.1 Flash-Lite	$0.25/M	$1.50/M	轻量档更贵
DeepSeek V4-Pro	$1.74/M	$3.48/M	大型前沿档低价
Gemini 3.1 Pro	$2/M	$12/M	输出贵很多
GPT-5.4	$2.50/M	$15/M	输出贵很多
Claude Sonnet 4.6	$3/M	$15/M	输出贵很多
GPT-5.5	$5/M	$30/M	高价前沿档

V4-Flash 比 GPT-5.4 Nano 还便宜，尤其是输出价格。V4-Pro 在大型前沿模型里也打到了低价区。

这不是免费午餐。低价可能来自效率，也可能夹杂市场补贴。现在能确认的是，DeepSeek 至少给出了 FLOPs 和 KV cache 下降的技术解释；还不能确认的是，这个价格能否在高并发、企业服务、海外访问、安全合规和长期供给下维持。

但市场压力已经形成。OpenAI、Google、Anthropic 最舒服的结构，是用能力领先维持高价。DeepSeek 如果把能力差距压到“可接受”，再把价格压到“很难忽视”，客户就会重新拆分任务：最难的交给最强模型，大量常规任务交给更便宜的模型。

火力不在发布会上，在采购合同里。

谁受影响：开发者和AI产品团队先动

最先受影响的是开发者，尤其是做长文档分析、代码库问答、Agent 工作流、日志审计、知识库检索的人。

这些场景有一个共同点：token 消耗大，调用频率高，输出也不小。模型单次调用贵一点，月账单就能滚成财务问题。V4-Flash 的意义就在这里，它可能让一批原本不敢常开的任务重新进入预算。

不是所有任务都需要 Claude Sonnet 或 GPT-5.4。很多企业内部工具只需要“够强、够稳、便宜到能长期跑”。如果 V4-Flash 在真实任务里表现稳定，它会先吃掉边缘任务、新项目、内部工具和低风险流程。

AI 产品团队也会很快感知。过去很多产品卡在单位经济账上：演示时很好看，真实用户一多，推理成本吃掉毛利。DeepSeek 如果能把低价维持住，产品经理会重新计算免费额度、付费套餐、后台任务频率和 Agent 调用深度。

普通用户暂时不一定直接感知。聊天框里换了哪个模型，背后成本差异未必立刻变成会员价格。但工具链会先动，用户体验随后才会变。平台迁移很少从核心系统开始，通常从边角料开始；边角料多了，就会长成新地盘。

接下来观察三件事：评测、本地部署、低价耐久性

V4 还不能被写成终局。现在能确认的是压力，不是胜利。

严肃评测要等第三方补齐。DeepSeek 自报成绩只能算线索。真实长上下文任务更难测：前文信息保持、跨段推理、代码一致性、引用准确性、工具调用稳定性，都不是一张排行榜能讲完的。

DeepSeek 自己也没有把 V4-Pro 包装成全线碾压。按其说法，V4-Pro-Max 通过扩展 reasoning tokens，在一些标准推理 benchmark 上超过 GPT-5.2 和 Gemini-3.0-Pro，但仍略低于 GPT-5.4 和 Gemini-3.1-Pro，大约落后 3 到 6 个月。

这反而让判断更清楚：DeepSeek 的威胁不是“我已经全面最强”，而是“我接近前沿，并且便宜很多”。

本地运行也要看量化进展。V4-Flash 权重约 160GB，轻量量化后有机会进入高端本地机器或私有化部署环境的射程。有人已经在关注 Unsloth 这类团队是否会推出可用量化版本。如果 Flash 能在 128GB 级别设备上跑得体面，它的意义就不只是便宜 API，还会扩展到数据敏感场景里的可控部署。

低价能撑多久，是更现实的变量。低价有两种：一种来自架构和系统效率，可以打持久战；一种来自补贴，热闹一阵就涨价。DeepSeek 给出了效率数字，但商业价格还要经受供给、并发、芯片成本、服务质量和合规成本的检验。

OpenAI、Google、Anthropic 仍有强优势：模型能力、产品生态、企业信任、云分发、安全治理、全球客户关系。这些不是一张低价表就能抹掉。

DeepSeek V4 更准确的意义，是让前沿附近的能力开始被重新估价。过去客户要么买最强，要么忍受弱很多的便宜模型。现在中间出现了更难处理的选项：能力接近、价格低很多、权重还能拿到。

企业采购不靠热血，靠预算、合规、延迟、稳定性和替换成本。谁能把成本曲线压下去，谁就有资格进下一轮谈判。

DeepSeek V4 的百万上下文是门面，效率是骨架，价格是刀口。榜首未必易主，账单已经先变天。

DeepSeek V4 Pro/Flash开放：百万上下文只是门面，真正的刀口是API价格

V4开放

双线定位

Pro档位

Flash档位

价格刀口

效率支撑

低价压力

先动人群

高频场景

单位经济

后续变量

真实评测

低价耐久

发生了什么：一个冲规模，一个冲成本

为什么重要：百万上下文不稀奇，便宜的百万上下文才稀缺

谁受影响：开发者和AI产品团队先动

接下来观察三件事：评测、本地部署、低价耐久性