一个研究型 Agent 最危险的动作,可能不是读取企业内部文档,而是把几个看似普通的词扔进外部搜索框。
ServiceNow 在 Hugging Face 发布了 MosaicLeaks。它测的不是模型会不会胡说,而是深度研究 Agent 在本地企业文档和 Web 检索之间来回跳时,会不会把私有信息拆成查询词带出去。
最刺眼的数字很简单:Base Qwen3-4B 的任务成功率是 48.7%,泄露率 34.0%;只按任务表现训练后,成功率升到 59.3%,泄露率也升到 51.7%。模型更会办事了,也更会顺手把秘密塞进查询。
MosaicLeaks 测的不是回答,是查询
MosaicLeaks 包含 1,001 条多跳研究链。任务材料交织本地企业文档和受控 Web 语料,用来模拟一种企业里很常见的流程:Agent 先读内部材料,再去外部搜索补证据,最后拼出答案。
限制也要讲清楚。这里的企业文档是合成的,Web 语料是受控的。它不是线上事故报告,不能直接等同真实企业部署泄露率。
但这个基准抓住了一个真实口子:查询日志本身就是泄露通道。
攻击者不需要拿到企业文档,也不需要看到模型的推理链。只要能看到 Agent 发出的 Web 查询,就可能从碎片里拼出内部事实。
| 泄露类型 | 查询日志暴露了什么 | 现实风险 |
|---|---|---|
| Intent leakage | 能推断 Agent 在研究什么 | 暴露调查目标、业务方向或内部关切 |
| Answer leakage | 给定私有问题后,可用查询日志答出来 | 查询已经带出答案线索 |
| Full-information leakage | 只靠查询日志说出可验证私有事实 | 最严重,问题本身都不用给 |
这就是“马赛克效应”。一条查询只有公司名,另一条有月份,第三条有比例或指标。单看都像正常检索,合在一起就像把内部报告拆成了搜索词。
受影响最大的是两类人。
一类是做企业 Agent 的产品和安全团队。只测回答是否正确不够,还要测出站查询是否泄露。
另一类是采购深度研究 Agent 的企业客户。供应商如果只展示完成率,不解释查询日志、外部工具和隐私评测,采购就该慢一点。
反常点:完成率越高,泄露率也可能越高
这篇工作最有价值的地方,不是证明某个模型不安全。它把一个更麻烦的冲突摆出来了:任务奖励可能会放大隐私泄露。
数据对比很直白。
| 方案 | 严格链路成功率 | 泄露率 | 说明 |
|---|---|---|---|
| Base Qwen3-4B | 48.7% | 34.0% | 基础 Agent 表现 |
| 任务奖励训练 | 59.3% | 51.7% | 只奖励任务成功,泄露上升 |
| 提示词约束 | 44.5% | 25.5% | 泄露下降,但成功率也掉 |
| PA-DR | 58.7% | 9.9% | 把隐私惩罚写进训练目标 |
自然反应是给 Agent 加一句提示:不要发出可能泄露本地信息的 Web 查询。
论文里也试了。对 Qwen3-4B,泄露率从 34.0% 降到 25.5%,但成功率从 48.7% 掉到 44.5%。
这说明提示词能管一点,但管不稳。它更像是在让 Agent 缩手缩脚,而不是学会安全地搜索。
PA-DR 的思路更接近问题本身:把隐私放进奖励函数。它既奖励 Agent 找到正确文档,也惩罚那些会直接泄露、或累积形成马赛克泄露的查询。
结果是成功率 58.7%,接近任务奖励训练的 59.3%;泄露率降到 9.9%。
这里还有一个容易误读的点:PA-DR 不是简单让 Agent 少搜索。它可能发出更多 Web 查询,但查询里更少携带私有碎片,比如具体比例、年份、内部实体和答案形态。
问题不在搜索次数,而在搜索词里塞了什么。
企业该盯住奖励函数和出站边界
我更在意的是训练激励。
对研究型 Agent 来说,更具体的查询通常更有效。带上公司名、指标、日期、上下文,搜索命中率会提高。对任务有用的信息,对旁观者也同样有用。
所以这不是模型“笨”。恰恰是模型更会利用上下文后,把私有上下文当成了检索燃料。
“天下熙熙,皆为利来。”放到机器学习里,这个“利”就是奖励函数。奖励完成率,模型就会奔着完成率去;隐私没有进账本,它就会被当成成本外包给查询日志。
企业落地时,最该改的不是一句系统提示,而是三道闸。
| 要管的环节 | 该问的问题 | 对应动作 |
|---|---|---|
| 查询生成 | Agent 会不会把内部实体、数字、结论带出去 | 做查询级隐私评测,拦截高风险查询 |
| 外部工具 | Web 搜索能拿到多少上下文 | 用工具代理、字段脱敏、最小必要上下文 |
| 日志权限 | 谁能看到查询和返回结果 | 限制日志访问,区分调试日志和生产日志 |
对 Agent 开发团队,动作更具体:把 MosaicLeaks 这类测试接进评测集;上线前不要只看 answer accuracy;出站查询要单独打分。
对企业采购方,问题也很直接:供应商能不能说明查询日志怎么存、谁能看、是否支持脱敏和审计;如果答不上来,先别把内部文档全接进去。
PA-DR 也不能被吹成终局方案。9.9% 仍然是泄露。结果还依赖单一 agent harness 和特定任务设计。真实企业里的权限、工具链、日志系统、网络边界更乱。
接下来该看三件事。
一是 PA-DR 这类方法能不能迁移到更多模型和真实工具链。二是企业 Agent 平台会不会把“查询泄露率”做成默认指标。三是厂商是否愿意开放查询日志治理能力,而不是只给一张漂亮的任务成功率曲线。
开头那个搜索框,可以收回来了。危险不在搜索本身,而在模型学会把私有信息当作搜索捷径。
捷径走多了,就是暗门。
