Claude Code 每跑完一次会话,都会留下一个 .jsonl 文件。里面有每轮对话、工具调用、token 消耗、subagent 行为。

反常点在这里:代理越来越像一个能动手的开发同事,证据却常常躺在几千行 JSON 里。它为什么碰了生产环境?哪个 subagent 烧掉了大半 token?什么时候调用了部署工具?很多团队事后才想起来查。

Hugging Face Space 上的黑客松项目 Her,做的就是把这份“证词”读出来。它不是 Anthropic 官方产品,也不是完整安全审计平台。更准确地说,它是一个 Claude Code 会话侦探:把轨迹还原成人能看懂的过程,再把风险动作标到具体 turn 上。

Her 读日志,不替你做安全背书

Her 的入口很直接:上传 Claude Code 会话产生的 .jsonl 文件,生成 session view;上传多个文件,可以形成 project view,用来跨会话追问。

它看的不是抽象摘要,而是代理留下的脚印。

Her 会读什么具体内容对开发者有什么用边界
对话轨迹每轮 turn、上下文变化复盘代理为什么这么走只能基于日志还原
工具调用CLI、MCP server、skills、subagent看代理实际执行过什么不能证明外部系统状态
成本消耗token 分布、重负载查询找出上下文预算花在哪里不是成本治理平台
风险动作deploy、配置变更、生产改动、密钥追溯到具体 turn不是企业合规审批

Ask Her 是它比较有用的一块。你可以问“为什么用了这个工具”,它会基于日志回答,引用对应 turn,并打开具体 tool call。

还有一个细节比界面更重要:Her 有离线工具数据库,识别 Homebrew、npm、PyPI 里的常见 CLI 工具。它不只是看到“跑了一个命令”,还会尝试判断这是数据库客户端、部署工具,还是开发服务器。

对排查代理有没有碰过生产资源,这比一句“看起来一切正常”有用得多。

Her 对技术边界说得比较克制。项目强调不调用第三方 AI API;Nemotron-Mini-4B-Instruct 跑在 Hugging Face Space 的 GPU 上;上传内容进入私有、自动删除的 namespace。

更关键的是分工:确定性评估引擎负责发现问题,模型只负责英文表述和软建议。

这条线必须划清。日志分析最怕“让一个模型猜另一个模型干了什么”。如果发现本身来自自由发挥,审计就变成二次幻觉。Her 至少把确定性发现和模型解释拆开了。

但也别把它神化。它不等于零隐私风险,也不能替代企业里的权限隔离、密钥管理、审批流和安全审计。它现在能做的,是会话取证、风险提示、日志追踪。

这个定位反而可信。

代理会动手,日志就要会作证

我更在意的不是 Her 多成熟,而是它暴露了 AI coding agent 的尴尬处境:能力开始像同事,治理还停在插件。

以前代码生成工具犯错,多半是写错一段函数。现在代理能调用 shell、读配置、跑部署、接数据库。只要能动手,就会留下责任问题。

谁批准的?谁执行的?谁看过?出了事谁解释?

这不是抽象的管理焦虑。对两类人影响最直接。

相关人现在该怎么做不该怎么做
Claude Code / AI agent 使用者保留 .jsonl 轨迹;高风险任务后回看 deploy、配置、密钥、数据库相关 turn把会话摘要当完整证据
技术负责人要求代理任务进入代码评审、权限控制和日志留存流程;把风险动作设成复盘项把 Her 这类工具当采购级合规产品

换句话说,开发者别只问“代理帮我省了几小时”。也要问“它省下的时间,能不能在事后解释清楚”。

技术负责人也别只盯 benchmark。模型会不会写代码,只是入场券。能不能回放、追责、限制动作,才决定它能不能进团队流程。

这里可以借一个老比喻:飞机黑匣子不是为了让飞机飞得更快,而是为了在事故后知道发生了什么。AI 编程代理不完全一样,但重复的是同一件事:速度越高,记录越不能缺席。

“凡事预则立,不预则废。”放在这里,不是讲大道理。生产环境里,预案不是 PPT,而是权限、日志、回放和责任边界。

Her 这类工具不性感。没有新模型发布会的光,也没有“十倍程序员”的爽感。但它更接近生产刚需。

因为企业真正怕的不是代理不会干活,而是代理干了活之后没人说得清。

接下来该盯三件事

Her 目前更像一个信号,不像终点。

我会盯的不是它能不能做出更漂亮的摘要,而是这条日志链路能不能接上真实开发系统。

第一,风险规则能不能配置。不同团队对“高风险”的定义不同。有人把 npm install 当日常,有人把任何数据库客户端调用都列为红线。不能配置,团队就只能迁就工具。

第二,能不能接进现有流程。企业已经有 Git、CI/CD、Secrets scanning、权限系统、日志平台。Her 现在展示的是会话取证能力,但要进生产,不能变成又一个孤立面板。

第三,隐私和保留策略能不能说清。项目材料提到不调用第三方 AI API、私有自动删除 namespace,这是加分项。但企业真正要问的是:能否本地化、能否限定权限、能否审计上传行为、能否和内部留存策略一致。材料里目前还看不清。

这里的现实约束很硬。Her 不是合规产品,不能替你证明“生产安全”。它更像把原来没人看的证据翻译出来,让团队知道该往哪里查。

这已经够有价值。

AI 编程代理越能干,日志越不能继续当废纸。没有可追溯性,它只能停在个人效率工具;有了回放、风险标记和责任线索,它才有机会进入团队流程。

模型负责行动,日志负责作证。少了后者,前者越强,组织越慌。