JetBrains 这次没有讲“全能 AI”。
它发布的 Mellum2,是一个 12B 参数的 MoE 文本与代码模型。每个 token 只激活 2.5B 参数。这个数字看着像模型圈的参数话术,但落到工程里,意思很直接:别什么活都请大模型。
真正值得看的是它的摆放位置。Mellum2 不像是奔着 GPT-4、Claude 这类前沿大模型去的。它更像要被塞进 IDE、RAG、agent 链路和企业私有部署里,做那些调用频繁、延迟敏感、又不能太贵的中间活。
Mellum2 是什么:一个面向代码和文本的开源 MoE 组件
JetBrains 称,Mellum2 是从零训练的模型,面向自然语言和代码任务。它不是多模态模型。
几个关键事实可以压到一张表里:
| 项目 | 信息 |
|---|---|
| 模型 | Mellum2 |
| 架构 | Mixture-of-Experts,MoE |
| 参数规模 | 总参数 12B,每 token 激活 2.5B |
| 能力范围 | 自然语言与代码,不是多模态 |
| 许可 | Apache 2.0 |
| 获取方式 | Hugging Face 可下载,JetBrains 提供技术报告 |
| 官方说法 | 相比同等规模开源模型有竞争力,推理速度超过 2 倍 |
这里要留一手。
“有竞争力”和“推理速度超过 2 倍”来自 JetBrains 技术报告。它不是独立第三方评测。benchmark 好看,不等于进生产环境就一定好用。
尤其是 MoE。每 token 只激活 2.5B 参数,不等于账单自动变低。真实成本还要看服务栈、并发、batch、显存、路由开销和工程团队水平。
但方向是清楚的。Mellum2 瞄准的不是万能聊天助手,而是软件工程系统里的高频中间层。
| 使用位置 | 可能承担的任务 | 谁最该看 |
|---|---|---|
| IDE / 代码助手 | 补全、摘要、轻量代码理解 | 做开发工具、插件、内部 IDE 的团队 |
| RAG 管线 | 上下文压缩、检索后处理、摘要 | AI 平台和知识库团队 |
| Agent 工作流 | 子任务拆分、格式转换、验证、工具选择 | 做工程 agent 的团队 |
| 企业私有部署 | 处理内部代码和私有数据 | 对数据出境敏感的企业 |
这些任务不炫,但很贵。
贵不一定贵在单次调用。贵在每天调用太多次。补全、摘要、检索后处理、agent 中间步骤,都是这种活。单次多花一点,规模上来就是预算洞。
真正的变化:大模型做难题,小模型管流水线
JetBrains 的特殊之处,不只是它开源了一个模型。
它手里有 IntelliJ IDEA、PyCharm、WebStorm 这类 IDE。它知道开发者在哪些地方愿意等,哪些地方一秒都不想等。
代码 AI 的入口也不只在聊天框。它还在编辑器、索引、构建系统、测试、重构、代码搜索、权限管理里。
这些地方有三条硬约束:
- 延迟要低.补全卡住 3 秒,用户会烦。
- 成本要稳.高频调用不能每次都走最贵模型。
- 数据要可控.内部代码库不一定能交给闭源 API。
所以 Mellum2 的价值,不是“又一个 12B 模型”。它更像 IDE 和企业工程 AI 里的廉价执行单元。
大模型负责难题。小模型负责跑腿。前者要聪明,后者要快、稳、可部署。
这和工业生产线有点像。不完全一样,但结构相似。早期工厂依赖中心化动力,后来小电机分布到各个工位,生产线才真的灵活起来。
软件工程 AI 也在走这条路。能力从一个中心化巨物,拆成可编排、可替换、可控的组件。
“天下熙熙,皆为利来。”放在这里很贴切。每一次模型调用,最后都会回到账本上。
对 AI 平台团队,动作应该很具体:别急着把 Mellum2 当主模型替换闭源大模型。更现实的做法,是把现有链路里的中间任务拆出来,先试补全、摘要、RAG 后处理、agent 子步骤。
对企业技术决策者,也别只问“它强不强”。该问的是:哪些内部代码任务不能出域?哪些调用成本最高?哪些环节对延迟最敏感?如果这三类问题里有重叠,Mellum2 才值得进入 PoC。
该兴奋,也该把问号写在前面
专用模型不是退步。它说明生产系统开始算账。
过去一年,AI 叙事太爱谈“大”:更大上下文、更强推理、更像人。可生产环境不按发布会逻辑付费。
企业更关心几件小事:能不能私有化,延迟能不能压住,吞吐能不能上去,出错边界能不能控制,换模型时系统会不会散架。
Mellum2 的机会就在这里。它不需要回答所有问题。只要把一批高频、低到中等复杂度的软件工程任务做得便宜、稳定、可控,就有位置。
但我不太买账的是,把 MoE 和开源许可直接等同于“部署省钱”。这中间隔着一整套工程现实。
最该观察三件事:
| 观察点 | 为什么重要 |
|---|---|
| 第三方评测能否复现 JetBrains 技术报告里的优势 | 官方 benchmark 只能当起点,不能当采购结论 |
| 真实 IDE 和企业代码库里的延迟、吞吐、稳定性 | 代码场景对交互体验很敏感,慢一点就会被弃用 |
| 社区和企业集成是否跟上 | 开源模型没有生态,只会停在“下载试试” |
它也不适合所有人。
如果团队只是偶尔用代码问答,现成闭源大模型可能更省事。如果没有模型部署能力,没有推理服务经验,也没有明确的高频任务,贸然上 Mellum2 可能只是把 API 成本换成运维成本。
更适合它的,是已有 AI 平台、调用量不低、对私有代码敏感、愿意把工作流拆成多模型协作的团队。
这也是 Mellum2 最有意思的地方:它不试图赢下所有任务。它只想在系统里占一个高频、具体、可算账的位置。
代码 AI 的竞争,正在从模型炫技转向系统调度。谁能把大模型、小模型、检索、工具、权限和私有数据缝成一台顺手的工程机器,谁才会留在开发者工作流里。
模型看着更小,问题反而更现实了。
