GitHub 上一个只有几十颗 star 的开源项目,抛出了一个很抓人的说法:YourMemory 做了带艾宾浩斯遗忘曲线衰减的 Agentic AI memory,并声称在 LoCoMo 记忆问答评测里,比 Mem0 召回率高 16 个百分点。
我不急着信这个数字。更有意思的是它换了一个问题:AI memory 不再只讲“永久记住”,开始讲“什么时候该忘”。这比又一个向量库封装更值得看。
长期上下文的麻烦,早就不只是容量。存住很容易,扔进 Postgres、DuckDB、向量库、日志系统都行。真正难的是:什么该留下,什么该降权,什么不该被另一个 agent 读到。
发生了什么:YourMemory 把卖点放在遗忘
YourMemory 的核心卖点,不是简单长期存储,而是基于艾宾浩斯遗忘曲线给记忆做衰减。换成工程语言,就是让记忆随时间、使用频率和重要性变化,影响后续检索权重。
这不是让模型拥有“类人记忆”。别神化。它更像一套排序、衰减和检索策略。
| 关键信息 | 目前能看到什么 | 该怎么读 |
|---|---|---|
| 核心卖点 | 艾宾浩斯遗忘曲线式记忆衰减 | 方向对,重点从存储转向取舍 |
| 评测说法 | LoCoMo 上比 Mem0 高 16pp | 项目自称,不能当第三方结论 |
| 召回数字 | 材料中出现 52%、59% 等口径 | 需要看版本、脚本、配置和样本 |
| 对比对象 | Mem0、Zep、Supermemory | 瞄准的是 agent 长期记忆基础设施 |
| 工程锚点 | MCP、Postgres/DuckDB、agent 权限、匿名安装 telemetry | 有产品化意识,也有信任风险 |
LoCoMo 用来测长期对话记忆问答。YourMemory 材料里提到相对 Mem0 的提升,也出现过四方 benchmark、1,534 个 QA pair、YourMemory 59%、Zep 28% 等说法。
这些都只能算线索。不能写成“已经证明领先”。
原因很简单:数字来自项目材料和自带 benchmark,不是独立第三方验证。材料里 52% 和 59% 的召回率口径也不一致。可能是版本变化,可能是测试设置不同,也可能只是 README 没同步。
对开发者来说,正确动作不是转发战报。是把它当成一个值得拆的工程样本。
为什么重要:AI 记忆的难点是管得住
很多 agent 项目的 memory 设计,像一个不倒垃圾的仓库。
用户说过什么,agent 做过什么,工具返回过什么,全往里扔。短期看很聪明。时间一长,记忆会变脏:过期偏好、错误事实、敏感信息、一次性上下文,都可能在未来被检索出来。
这会带来三类后果。
| 场景 | 记得太多的问题 | 真正需要的能力 |
|---|---|---|
| 个人助手 | 把旧偏好当成新偏好 | 衰减、更新、用户可删除 |
| 企业知识库 agent | 跨项目带出不该用的信息 | 权限隔离、审计、访问控制 |
| 医疗、金融类应用 | 把敏感上下文带到错误场景 | 最小化记忆、可追踪、可撤回 |
“藏诸名山,传之其人”,用在人类著述上很美。用在 AI memory 上很危险。不是所有上下文都配被传下去。
YourMemory 至少把问题问对了:长期记忆必须有时间感,也必须有边界。
它支持 MCP,说明它想接入 Claude、Cline、OpenCode 这类 agent 工作流。它用 Postgres/DuckDB,说明目标不是一次性 demo。它引入 agent registry,通过 agent_id 控制 can_read、can_write,说明它意识到“谁能读谁的记忆”会成为核心问题。
这比单纯刷召回率更重要。
召回率高,只说明系统更容易把东西找回来。真实世界里,找回来不一定是好事。企业采购一个 memory 组件,最怕的不是 agent 忘了某个会议偏好,而是它把 A 项目的敏感记录带进 B 项目。
开发者受影响最大。
如果你在做 AI agent、个人助手、长期上下文应用,现在该调整评估标准了。别只问“能不能记住”。要问“什么时候降权、谁能读取、能不能删除、出错后能不能审计”。
企业团队更应该慢一点。可以做 PoC,不该马上迁移核心记忆层。memory 一旦接入生产,就会变成长期数据管道。换掉它,比换一个 prompt 模板麻烦得多。
接下来怎么看:别看战报,看复现和治理
我不太买账“比 Mem0 高 16pp,所以更强”这条叙事。
Memory 系统的评测太容易被配置影响。embedding 模型、chunk 策略、rerank、实体抽取、时间衰减、上下文注入方式,都会改变结果。LoCoMo 是入口,不是终审。
开发者如果真想判断 YourMemory,应该看这几件事。
| 要检查什么 | 为什么重要 |
|---|---|
| benchmark 脚本能否复现 | 自测数字只有可复现才有讨论价值 |
| Mem0、Zep、Supermemory 的配置是否公平 | 默认参数不同,结果可能失真 |
| 52% 与 59% 的口径差异 | 数字不统一时,先别引用成结论 |
| 衰减策略能否调参 | 不同业务对“遗忘速度”要求不同 |
| agent 权限是否足够细 | 多 agent 场景最容易串读数据 |
| telemetry 是否透明、可关闭 | memory 基础设施的信任门槛更高 |
| 删除、导出、审计是否清楚 | 长期记忆必须能治理,不只是能检索 |
匿名安装 telemetry 这个细节尤其不能跳过。项目材料里提到 anonymous install telemetry、cold start ping。哪怕只是统计安装,也应该默认透明、明确可关。
普通 CLI 工具有 telemetry,用户可能只是不舒服。memory 基础设施有 telemetry,用户会问:你到底碰到了什么、记录了什么、传了什么。
这就是 AI memory 接下来真正的分水岭。
早期大家比谁记得多。下一阶段会比谁忘得稳、权限分得细、审计讲得清。Mem0、Zep、Supermemory 也绕不开这个问题。
YourMemory 未必是答案。它现在更像一个有想法的开源实验:方向锋利,数字要核,工程要磨,信任还要慢慢建立。
但它抓住了一条对的线:AI 的长期上下文不会靠无限窗口解决。窗口再大,也要取舍;存储再便宜,也要遗忘。
成熟的 AI 助手,不该永远记住你说过的每句话。它要知道哪些话已经过期,哪些话只能在原场景里用,哪些话应该彻底消失。
