一位长期使用大模型的工程师作者,最近把 Qwen 3.7 Max 放到了主力位置。
他给出的理由很具体:不是某次回答惊艳,而是能连续工作数小时,成本更低,可用性也更稳定。这个体验还不能当成行业共识,但它足够引出一个尖锐问题:美国头部 AI 模型的高价,今天还值不值?
我更在意的不是“谁赢了”这种口号。
真正该算的是这笔账:当中国模型已经能承担不少编程、推理和长任务,OpenAI、Anthropic 的溢价,到底还由智能差距支撑,还是越来越依赖品牌、地缘叙事和资本市场信仰。
Qwen 3.7 Max 被放进了“能干活”的账本
这篇评论没有给出 Qwen 3.7 Max 的官方参数、发布时间或标准化跑分,也没有证明它全面超过美国模型。
作者的判断来自连续使用。他把模型放进真实工程任务,看长时间执行、日志、稳定性和成本,而不是只看单题表现。
这类体验有价值,也有边界。
价值在于,它贴近开发者日常。边界在于,个人项目、提示词习惯、任务类型都会影响结果。它能说明“已有重度用户认为中国模型可替代一部分美国模型”,但不能推出“行业已经完成替代”。
| 对比项 | 原文中的观察锚点 | 对采购或开发的含义 |
|---|---|---|
| Qwen 3.7 Max | 被作者视为近期主力模型,强调长时间工作能力和性价比 | 不再只是备用模型,值得进入严肃评估 |
| DeepSeek、Moonshot、MiniMax | 可与 Qwen 一起作为替代或组合选项 | 多模型组合能降低供应商锁定 |
| OpenAI、Anthropic | 高价订阅、API 成本、限流、复杂套餐并存 | “默认买最贵”需要重新论证 |
| Artificial Analysis、OpenRouter | 分别可观察模型表现和开发者使用倾向 | 跑分要看,真实调用也要看 |
原文还提到,作者使用的 100 美元 token 计划可获得 100K credits,并访问 Qwen 3.7 Max、DeepSeek、Moonshot、MiniMax 等模型。
这个价格细节只能代表作者所在渠道和使用场景,不能外推到所有用户。但它解释了一个现实变化:开发者开始把“前沿模型崇拜”改成“单位成本核算”。
对小团队来说,这不是抽象争论。更现实的做法是延后大额年付合同,先用两到四周做多模型对照。把同一批代码任务、长文任务、检索任务跑一遍,看成本、失败率、返工时间,而不是只看品牌名。
美国模型的溢价,越来越像一套套餐叙事
OpenAI 和 Anthropic 仍然有强项。
ChatGPT、Claude、Codex 类工具已经进入很多开发者工作流。OpenAI 的 o1、o3 等推理模型,也在不少高难任务中表现出优势。企业客户愿意付费,不只是买模型输出,也是在买集成、稳定性、合规和组织内部的安心感。
问题出在溢价的组合方式。
高价订阅、API 成本、限流、复杂命名和套餐层级叠在一起,用户很容易从“买能力”滑向“买身份”。ChatGPT Pro 的公开订阅价已经到每月 200 美元。Claude 的高阶订阅也采用高价与用量限制组合。
这就是原文所说的“OnlyFans 式经济”:用户不只为服务付费,也为品牌、情绪连接和稀缺感付费。
这个说法有点刺耳,但指向的现象并不陌生。模型被拟人化,产品被包装成陪伴或伙伴,用户在限流和套餐之间不断加钱。最后,价格不完全由能力解释,也由崇拜和焦虑解释。
Anthropic 的争议更集中在安全叙事。
作者不太买账的一点是:公司一边强调模型安全、拟人化边界和道德姿态,一边又服务政府或情报相关用途。这里不能直接推出 Anthropic 的安全承诺无效,但这种张力会削弱叙事的说服力。
对企业采购方来说,问题不是站队,而是验收。
供应商说自己更安全,就要能落到权限控制、审计、数据保留、红队测试和事故响应。供应商说自己更强,就要能落到任务成功率和总成本。不能只把“安全”“前沿”“可靠”写进采购理由。
开发团队也该调整用法:高风险推理、关键决策、复杂代码架构,可以保留美国旗舰模型;批量代码审查、长文处理、数据清洗、内部知识库问答,可以让 Qwen、DeepSeek、Moonshot 等模型参与竞价。
这不是立刻迁移,而是停止单一依赖。
受影响最大的,是采购预算和估值风险
最先被打到的是企业 AI 采购。
很多公司现在的问题不是没有 AI 工具,而是工具太多、账单太散、用量没人管。一个团队如果把 OpenAI 或 Claude 当作默认答案,很容易在 token 消耗、内部试点和重复采购里烧掉预算。
原文提到有公司因未设置用量上限,在短时间内产生巨额账单。具体金额需要回到原始案例核验,但风险本身并不罕见:没有上限、没有路由、没有验收,AI 成本会变成一张看不懂的云账单。
企业现在能做的动作其实很清楚:
- 新采购先做模型路由,不要只签单一旗舰模型。
- 试点必须设用量上限,按任务类型拆成本。
- 续约前做同题对比,至少看成功率、延迟、返工时间和每次任务成本。
- 对“安全”“前沿”“企业级”这类表述,要求供应商给可审计证据。
开发者会更快转向务实路线。
过去是追最新模型,现在更像调度资源。高价值任务用最强模型,批量任务用性价比模型,失败任务再升级。OpenRouter 这类平台的调用趋势,会比发布会口号更接近真实选择。
普通投资者受到的影响更间接,但也更难躲。
美国 AI 公司高估值会通过私募基金、养老金、保险资金或相关指数产品传导。很多最终承担风险的人,未必知道模型之间的真实差距,也不一定知道企业客户到底是在买能力,还是在买品牌安全感。
这里不能简单说泡沫必然破裂。
更准确的判断是:如果收入增长越来越依赖用户崇拜、企业浪费采购和资本叙事接力,而不是清晰的生产率提升,那估值就需要更严格的现金流检验。
接下来最该看三件事。
| 观察项 | 如果发生什么变化 | 说明什么 |
|---|---|---|
| OpenRouter 等平台调用 | Qwen、DeepSeek、Moonshot 等模型调用持续上升 | 开发者正在用真实工作负载投票 |
| 美国模型定价和限流 | 单位成本下降,限流放宽,套餐变简单 | 溢价压力已经传导到商业策略 |
| 企业采购方式 | 从单一旗舰订阅转向多模型路由 | AI 采购从信仰题变成财务题 |
这三个信号,比单次跑分更重要。
如果中国模型继续提高可用性,美国模型又不愿降低溢价,采购方会先变。开发者会把模型当工具箱,而不是神坛。资本市场最后才反应,但反应通常更疼。
