一家公司专门做“测试”,也能拿到 5000 万美元。Patronus AI 刚完成 B 轮融资,估值未披露,本轮由 Greenfield Partners 领投,Notable Capital、Lightspeed、Datadog 和 Samsung 参投。
这家公司成立于 2023 年,创始人是前 Meta AI 研究员 Anand Kannappan 和 Rebecca Qian。Notable Capital 的投资人 Glenn Solomon 说,几乎所有前沿 AI 实验室和许多新兴创业公司都是客户。Patronus 还称,过去一年收入增长了 15 倍。
我更在意的是,这些钱说明市场正在承认一件事:Agent 的问题,已经不是“会不会答”,而是“会不会稳”。当它开始替人跑代码、做金融分析、走内部流程时,单次 benchmark 的高分就不够用了。
Patronus 卖的不是模型,而是可重复的压力测试
Patronus 的方法很直接。它把网站和内部系统复刻成模拟环境,让 Agent 在里面跑任务。重点不是看模型“像不像会”,而是看它有没有真正完成。
它不靠人工数据标注去判分。它更像是在训练之后,再把 Agent 丢进一个更接近真实流程的沙盒里,检查它会不会在中间步骤出错、走捷径,或者把表面动作误当成完成任务。
| 路线 | 主要作用 | 主要局限 |
|---|---|---|
| 传统 benchmark | 快速展示模型能力 | 分数高,不等于任务真做成 |
| 人工标注 / 常规训练服务 | 帮模型学偏好和行为 | 人力重,复杂流程覆盖不够 |
| Patronus 的数字世界 | 复刻网站和内部系统,做执行测试 | 更适合可验证任务,开放问题仍难测 |
这条路的意义在于把“能演示”和“能交付”拆开。前者适合发布会,后者才适合进生产。
为什么先从软件工程和金融下手
Patronus 现在重点做的软件工程和金融,都是结果相对能验的场景。代码有没有跑通,流程有没有完成,很多时候都能立刻看出来。金融场景也类似,至少比开放式对话更容易定义对错。
Kannappan 的判断也很现实:先做那些能立即检查的问题,再往外扩到更难验证的任务。这个顺序不花哨,但对测试产品来说是对的。因为真正难的,不是让 Agent 做一步,而是让它连续做很多步,还不能在中途跑偏。
它的边界也很清楚
Patronus 眼下最强的地方,是可验证任务。它解决的是“怎么测”,不是“怎么让 Agent 彻底可靠”。一旦任务变成长时间运行、结果不容易判定对错,模拟环境的作用就会变弱。
对 AI Agent 创业者和产品负责人来说,这会直接影响采购顺序。以后更像是先过沙盒,再谈上线。能不能被测试出来,可能比“看起来能做”更早决定产品能不能进生产。
Patronus 的主要对手也不一定是另一家创业公司,更多时候是 AI 实验室自己的内部评测团队。大厂和实验室本来就知道,模型“看起来会做”和“稳定交付”之间隔着一条沟。外部工具的价值,在于把这条沟变成可重复的测试场景。
接下来最该看的,不是融资额本身,而是两件事:它能不能在软件工程和金融之外再往前走一步;以及它会不会真的变成 AI 实验室和创业公司默认要加的一道门槛。
