JetBrains 发布 Mellum2：代码 AI 开始从“大模型崇拜”转向系统算账

核心摘要 Summary

JetBrains 开源 Mellum2：12B 总参数、每 token 激活 2.5B 参数，采用 MoE 架构，面向自然语言与代码任务，Apache 2.0 许可。
它不是用来挑战 GPT-4 或 Claude 的前沿模型，更像 IDE、RAG、agent 工作流里的高频执行组件。
这件事的重点是：软件工程 AI 正在从“一个大模型包打天下”，转向更便宜、更可控、更容易私有部署的小齿轮体系。

JetBrains 这次没有讲“全能 AI”。

它发布的 Mellum2，是一个 12B 参数的 MoE 文本与代码模型。每个 token 只激活 2.5B 参数。这个数字看着像模型圈的参数话术，但落到工程里，意思很直接：别什么活都请大模型。

真正值得看的是它的摆放位置。Mellum2 不像是奔着 GPT-4、Claude 这类前沿大模型去的。它更像要被塞进 IDE、RAG、agent 链路和企业私有部署里，做那些调用频繁、延迟敏感、又不能太贵的中间活。

Mellum2 是什么：一个面向代码和文本的开源 MoE 组件

JetBrains 称，Mellum2 是从零训练的模型，面向自然语言和代码任务。它不是多模态模型。

几个关键事实可以压到一张表里：

项目	信息
模型	Mellum2
架构	Mixture-of-Experts，MoE
参数规模	总参数 12B，每 token 激活 2.5B
能力范围	自然语言与代码，不是多模态
许可	Apache 2.0
获取方式	Hugging Face 可下载，JetBrains 提供技术报告
官方说法	相比同等规模开源模型有竞争力，推理速度超过 2 倍

这里要留一手。

“有竞争力”和“推理速度超过 2 倍”来自 JetBrains 技术报告。它不是独立第三方评测。benchmark 好看，不等于进生产环境就一定好用。

尤其是 MoE。每 token 只激活 2.5B 参数，不等于账单自动变低。真实成本还要看服务栈、并发、batch、显存、路由开销和工程团队水平。

但方向是清楚的。Mellum2 瞄准的不是万能聊天助手，而是软件工程系统里的高频中间层。

使用位置	可能承担的任务	谁最该看
IDE / 代码助手	补全、摘要、轻量代码理解	做开发工具、插件、内部 IDE 的团队
RAG 管线	上下文压缩、检索后处理、摘要	AI 平台和知识库团队
Agent 工作流	子任务拆分、格式转换、验证、工具选择	做工程 agent 的团队
企业私有部署	处理内部代码和私有数据	对数据出境敏感的企业

这些任务不炫，但很贵。

贵不一定贵在单次调用。贵在每天调用太多次。补全、摘要、检索后处理、agent 中间步骤，都是这种活。单次多花一点，规模上来就是预算洞。

真正的变化：大模型做难题，小模型管流水线

JetBrains 的特殊之处，不只是它开源了一个模型。

它手里有 IntelliJ IDEA、PyCharm、WebStorm 这类 IDE。它知道开发者在哪些地方愿意等，哪些地方一秒都不想等。

代码 AI 的入口也不只在聊天框。它还在编辑器、索引、构建系统、测试、重构、代码搜索、权限管理里。

这些地方有三条硬约束：

延迟要低.补全卡住 3 秒，用户会烦。
成本要稳.高频调用不能每次都走最贵模型。
数据要可控.内部代码库不一定能交给闭源 API。

所以 Mellum2 的价值，不是“又一个 12B 模型”。它更像 IDE 和企业工程 AI 里的廉价执行单元。

大模型负责难题。小模型负责跑腿。前者要聪明，后者要快、稳、可部署。

这和工业生产线有点像。不完全一样，但结构相似。早期工厂依赖中心化动力，后来小电机分布到各个工位，生产线才真的灵活起来。

软件工程 AI 也在走这条路。能力从一个中心化巨物，拆成可编排、可替换、可控的组件。

“天下熙熙，皆为利来。”放在这里很贴切。每一次模型调用，最后都会回到账本上。

对 AI 平台团队，动作应该很具体：别急着把 Mellum2 当主模型替换闭源大模型。更现实的做法，是把现有链路里的中间任务拆出来，先试补全、摘要、RAG 后处理、agent 子步骤。

对企业技术决策者，也别只问“它强不强”。该问的是：哪些内部代码任务不能出域？哪些调用成本最高？哪些环节对延迟最敏感？如果这三类问题里有重叠，Mellum2 才值得进入 PoC。

该兴奋，也该把问号写在前面

专用模型不是退步。它说明生产系统开始算账。

过去一年，AI 叙事太爱谈“大”：更大上下文、更强推理、更像人。可生产环境不按发布会逻辑付费。

企业更关心几件小事：能不能私有化，延迟能不能压住，吞吐能不能上去，出错边界能不能控制，换模型时系统会不会散架。

Mellum2 的机会就在这里。它不需要回答所有问题。只要把一批高频、低到中等复杂度的软件工程任务做得便宜、稳定、可控，就有位置。

但我不太买账的是，把 MoE 和开源许可直接等同于“部署省钱”。这中间隔着一整套工程现实。

最该观察三件事：

观察点	为什么重要
第三方评测能否复现 JetBrains 技术报告里的优势	官方 benchmark 只能当起点，不能当采购结论
真实 IDE 和企业代码库里的延迟、吞吐、稳定性	代码场景对交互体验很敏感，慢一点就会被弃用
社区和企业集成是否跟上	开源模型没有生态，只会停在“下载试试”

它也不适合所有人。

如果团队只是偶尔用代码问答，现成闭源大模型可能更省事。如果没有模型部署能力，没有推理服务经验，也没有明确的高频任务，贸然上 Mellum2 可能只是把 API 成本换成运维成本。

更适合它的，是已有 AI 平台、调用量不低、对私有代码敏感、愿意把工作流拆成多模型协作的团队。

这也是 Mellum2 最有意思的地方：它不试图赢下所有任务。它只想在系统里占一个高频、具体、可算账的位置。

代码 AI 的竞争，正在从模型炫技转向系统调度。谁能把大模型、小模型、检索、工具、权限和私有数据缝成一台顺手的工程机器，谁才会留在开发者工作流里。

模型看着更小，问题反而更现实了。

JetBrains 发布 Mellum2：代码 AI 开始从“大模型崇拜”转向系统算账

Mellum2

模型定位

参数设计

能力边界

使用场景

工程链路

私有部署

行业变化

成本账本

体验约束

落地疑问

评测复现

工程成本

适用团队

适合条件

不适合

Mellum2 是什么：一个面向代码和文本的开源 MoE 组件

真正的变化：大模型做难题，小模型管流水线

该兴奋，也该把问号写在前面