GitHub 上一个只有几十颗 star 的开源项目,抛出了一个很抓人的说法:YourMemory 做了带艾宾浩斯遗忘曲线衰减的 Agentic AI memory,并声称在 LoCoMo 记忆问答评测里,比 Mem0 召回率高 16 个百分点。

我不急着信这个数字。更有意思的是它换了一个问题:AI memory 不再只讲“永久记住”,开始讲“什么时候该忘”。这比又一个向量库封装更值得看。

长期上下文的麻烦,早就不只是容量。存住很容易,扔进 Postgres、DuckDB、向量库、日志系统都行。真正难的是:什么该留下,什么该降权,什么不该被另一个 agent 读到。

发生了什么:YourMemory 把卖点放在遗忘

YourMemory 的核心卖点,不是简单长期存储,而是基于艾宾浩斯遗忘曲线给记忆做衰减。换成工程语言,就是让记忆随时间、使用频率和重要性变化,影响后续检索权重。

这不是让模型拥有“类人记忆”。别神化。它更像一套排序、衰减和检索策略。

关键信息目前能看到什么该怎么读
核心卖点艾宾浩斯遗忘曲线式记忆衰减方向对,重点从存储转向取舍
评测说法LoCoMo 上比 Mem0 高 16pp项目自称,不能当第三方结论
召回数字材料中出现 52%、59% 等口径需要看版本、脚本、配置和样本
对比对象Mem0、Zep、Supermemory瞄准的是 agent 长期记忆基础设施
工程锚点MCP、Postgres/DuckDB、agent 权限、匿名安装 telemetry有产品化意识,也有信任风险

LoCoMo 用来测长期对话记忆问答。YourMemory 材料里提到相对 Mem0 的提升,也出现过四方 benchmark、1,534 个 QA pair、YourMemory 59%、Zep 28% 等说法。

这些都只能算线索。不能写成“已经证明领先”。

原因很简单:数字来自项目材料和自带 benchmark,不是独立第三方验证。材料里 52% 和 59% 的召回率口径也不一致。可能是版本变化,可能是测试设置不同,也可能只是 README 没同步。

对开发者来说,正确动作不是转发战报。是把它当成一个值得拆的工程样本。

为什么重要:AI 记忆的难点是管得住

很多 agent 项目的 memory 设计,像一个不倒垃圾的仓库。

用户说过什么,agent 做过什么,工具返回过什么,全往里扔。短期看很聪明。时间一长,记忆会变脏:过期偏好、错误事实、敏感信息、一次性上下文,都可能在未来被检索出来。

这会带来三类后果。

场景记得太多的问题真正需要的能力
个人助手把旧偏好当成新偏好衰减、更新、用户可删除
企业知识库 agent跨项目带出不该用的信息权限隔离、审计、访问控制
医疗、金融类应用把敏感上下文带到错误场景最小化记忆、可追踪、可撤回

“藏诸名山,传之其人”,用在人类著述上很美。用在 AI memory 上很危险。不是所有上下文都配被传下去。

YourMemory 至少把问题问对了:长期记忆必须有时间感,也必须有边界。

它支持 MCP,说明它想接入 Claude、Cline、OpenCode 这类 agent 工作流。它用 Postgres/DuckDB,说明目标不是一次性 demo。它引入 agent registry,通过 agent_id 控制 can_read、can_write,说明它意识到“谁能读谁的记忆”会成为核心问题。

这比单纯刷召回率更重要。

召回率高,只说明系统更容易把东西找回来。真实世界里,找回来不一定是好事。企业采购一个 memory 组件,最怕的不是 agent 忘了某个会议偏好,而是它把 A 项目的敏感记录带进 B 项目。

开发者受影响最大。

如果你在做 AI agent、个人助手、长期上下文应用,现在该调整评估标准了。别只问“能不能记住”。要问“什么时候降权、谁能读取、能不能删除、出错后能不能审计”。

企业团队更应该慢一点。可以做 PoC,不该马上迁移核心记忆层。memory 一旦接入生产,就会变成长期数据管道。换掉它,比换一个 prompt 模板麻烦得多。

接下来怎么看:别看战报,看复现和治理

我不太买账“比 Mem0 高 16pp,所以更强”这条叙事。

Memory 系统的评测太容易被配置影响。embedding 模型、chunk 策略、rerank、实体抽取、时间衰减、上下文注入方式,都会改变结果。LoCoMo 是入口,不是终审。

开发者如果真想判断 YourMemory,应该看这几件事。

要检查什么为什么重要
benchmark 脚本能否复现自测数字只有可复现才有讨论价值
Mem0、Zep、Supermemory 的配置是否公平默认参数不同,结果可能失真
52% 与 59% 的口径差异数字不统一时,先别引用成结论
衰减策略能否调参不同业务对“遗忘速度”要求不同
agent 权限是否足够细多 agent 场景最容易串读数据
telemetry 是否透明、可关闭memory 基础设施的信任门槛更高
删除、导出、审计是否清楚长期记忆必须能治理,不只是能检索

匿名安装 telemetry 这个细节尤其不能跳过。项目材料里提到 anonymous install telemetry、cold start ping。哪怕只是统计安装,也应该默认透明、明确可关。

普通 CLI 工具有 telemetry,用户可能只是不舒服。memory 基础设施有 telemetry,用户会问:你到底碰到了什么、记录了什么、传了什么。

这就是 AI memory 接下来真正的分水岭。

早期大家比谁记得多。下一阶段会比谁忘得稳、权限分得细、审计讲得清。Mem0、Zep、Supermemory 也绕不开这个问题。

YourMemory 未必是答案。它现在更像一个有想法的开源实验:方向锋利,数字要核,工程要磨,信任还要慢慢建立。

但它抓住了一条对的线:AI 的长期上下文不会靠无限窗口解决。窗口再大,也要取舍;存储再便宜,也要遗忘。

成熟的 AI 助手,不该永远记住你说过的每句话。它要知道哪些话已经过期,哪些话只能在原场景里用,哪些话应该彻底消失。