YourMemory 让 AI 记忆学会遗忘，但那 16pp 还不能当结论

核心摘要 Summary

YourMemory 在 GitHub 发布了一个带艾宾浩斯遗忘曲线衰减机制的 Agentic AI memory，并声称 LoCoMo 召回率比 Mem0 高 16 个百分点。
真正值得看的是遗忘机制：AI 长期记忆不能只比谁存得多，还要比谁会降权、会隔离、会删除。
开发者可以研究它的方向，但不宜直接迁移；企业接入更该盯住复现、权限、telemetry 和数据治理。

GitHub 上一个只有几十颗 star 的开源项目，抛出了一个很抓人的说法：YourMemory 做了带艾宾浩斯遗忘曲线衰减的 Agentic AI memory，并声称在 LoCoMo 记忆问答评测里，比 Mem0 召回率高 16 个百分点。

我不急着信这个数字。更有意思的是它换了一个问题：AI memory 不再只讲“永久记住”，开始讲“什么时候该忘”。这比又一个向量库封装更值得看。

长期上下文的麻烦，早就不只是容量。存住很容易，扔进 Postgres、DuckDB、向量库、日志系统都行。真正难的是：什么该留下，什么该降权，什么不该被另一个 agent 读到。

发生了什么：YourMemory 把卖点放在遗忘

YourMemory 的核心卖点，不是简单长期存储，而是基于艾宾浩斯遗忘曲线给记忆做衰减。换成工程语言，就是让记忆随时间、使用频率和重要性变化，影响后续检索权重。

这不是让模型拥有“类人记忆”。别神化。它更像一套排序、衰减和检索策略。

关键信息	目前能看到什么	该怎么读
核心卖点	艾宾浩斯遗忘曲线式记忆衰减	方向对，重点从存储转向取舍
评测说法	LoCoMo 上比 Mem0 高 16pp	项目自称，不能当第三方结论
召回数字	材料中出现 52%、59% 等口径	需要看版本、脚本、配置和样本
对比对象	Mem0、Zep、Supermemory	瞄准的是 agent 长期记忆基础设施
工程锚点	MCP、Postgres/DuckDB、agent 权限、匿名安装 telemetry	有产品化意识，也有信任风险

LoCoMo 用来测长期对话记忆问答。YourMemory 材料里提到相对 Mem0 的提升，也出现过四方 benchmark、1,534 个 QA pair、YourMemory 59%、Zep 28% 等说法。

这些都只能算线索。不能写成“已经证明领先”。

原因很简单：数字来自项目材料和自带 benchmark，不是独立第三方验证。材料里 52% 和 59% 的召回率口径也不一致。可能是版本变化，可能是测试设置不同，也可能只是 README 没同步。

对开发者来说，正确动作不是转发战报。是把它当成一个值得拆的工程样本。

为什么重要：AI 记忆的难点是管得住

很多 agent 项目的 memory 设计，像一个不倒垃圾的仓库。

用户说过什么，agent 做过什么，工具返回过什么，全往里扔。短期看很聪明。时间一长，记忆会变脏：过期偏好、错误事实、敏感信息、一次性上下文，都可能在未来被检索出来。

这会带来三类后果。

场景	记得太多的问题	真正需要的能力
个人助手	把旧偏好当成新偏好	衰减、更新、用户可删除
企业知识库 agent	跨项目带出不该用的信息	权限隔离、审计、访问控制
医疗、金融类应用	把敏感上下文带到错误场景	最小化记忆、可追踪、可撤回

“藏诸名山，传之其人”，用在人类著述上很美。用在 AI memory 上很危险。不是所有上下文都配被传下去。

YourMemory 至少把问题问对了：长期记忆必须有时间感，也必须有边界。

它支持 MCP，说明它想接入 Claude、Cline、OpenCode 这类 agent 工作流。它用 Postgres/DuckDB，说明目标不是一次性 demo。它引入 agent registry，通过 agent_id 控制 can_read、can_write，说明它意识到“谁能读谁的记忆”会成为核心问题。

这比单纯刷召回率更重要。

召回率高，只说明系统更容易把东西找回来。真实世界里，找回来不一定是好事。企业采购一个 memory 组件，最怕的不是 agent 忘了某个会议偏好，而是它把 A 项目的敏感记录带进 B 项目。

开发者受影响最大。

如果你在做 AI agent、个人助手、长期上下文应用，现在该调整评估标准了。别只问“能不能记住”。要问“什么时候降权、谁能读取、能不能删除、出错后能不能审计”。

企业团队更应该慢一点。可以做 PoC，不该马上迁移核心记忆层。memory 一旦接入生产，就会变成长期数据管道。换掉它，比换一个 prompt 模板麻烦得多。

接下来怎么看：别看战报，看复现和治理

我不太买账“比 Mem0 高 16pp，所以更强”这条叙事。

Memory 系统的评测太容易被配置影响。embedding 模型、chunk 策略、rerank、实体抽取、时间衰减、上下文注入方式，都会改变结果。LoCoMo 是入口，不是终审。

开发者如果真想判断 YourMemory，应该看这几件事。

要检查什么	为什么重要
benchmark 脚本能否复现	自测数字只有可复现才有讨论价值
Mem0、Zep、Supermemory 的配置是否公平	默认参数不同，结果可能失真
52% 与 59% 的口径差异	数字不统一时，先别引用成结论
衰减策略能否调参	不同业务对“遗忘速度”要求不同
agent 权限是否足够细	多 agent 场景最容易串读数据
telemetry 是否透明、可关闭	memory 基础设施的信任门槛更高
删除、导出、审计是否清楚	长期记忆必须能治理，不只是能检索

匿名安装 telemetry 这个细节尤其不能跳过。项目材料里提到 anonymous install telemetry、cold start ping。哪怕只是统计安装，也应该默认透明、明确可关。

普通 CLI 工具有 telemetry，用户可能只是不舒服。memory 基础设施有 telemetry，用户会问：你到底碰到了什么、记录了什么、传了什么。

这就是 AI memory 接下来真正的分水岭。

早期大家比谁记得多。下一阶段会比谁忘得稳、权限分得细、审计讲得清。Mem0、Zep、Supermemory 也绕不开这个问题。

YourMemory 未必是答案。它现在更像一个有想法的开源实验：方向锋利，数字要核，工程要磨，信任还要慢慢建立。

但它抓住了一条对的线：AI 的长期上下文不会靠无限窗口解决。窗口再大，也要取舍；存储再便宜，也要遗忘。

成熟的 AI 助手，不该永远记住你说过的每句话。它要知道哪些话已经过期，哪些话只能在原场景里用，哪些话应该彻底消失。

YourMemory 让 AI 记忆学会遗忘，但那 16pp 还不能当结论

会忘的记忆

卖点转向

遗忘曲线

非类人记忆

数字存疑

自带评测

口径不一

核心难点

记得太多

边界能力

工程变量

权限控制

Telemetry

采用建议

开发者

企业

发生了什么：YourMemory 把卖点放在遗忘

为什么重要：AI 记忆的难点是管得住

接下来怎么看：别看战报，看复现和治理