OpenClaw Memory 终极指南:从失忆痛点到记忆系统架构设计
原文: 李韭二 (@lijiuer92)
一篇关于 OpenClaw 记忆痛点的深度拆解,从现状到方案,从学术到工程。
核心问题:你的 OpenClaw 小龙虾每次失忆
先说一个数字:45 小时。
GitHub Issue #5429 的报告者 EmpireCreator 丢失了 45 小时的 Agent 积累上下文:技能配置、集成参数、任务优先级。原因是一次静默压缩(compaction)清除了所有对话历史,没有警告,没有恢复选项。
这不是个案。
- Issue #2624:Agent 随机重置,忘记 2 条消息前的对话
- Issue #8723:Memory flush 触发无限循环,锁死 Agent 72 分钟
社区的推文说得最直白:“Everyone complains their OpenClaw has amnesia.”
OpenClaw 当前记忆架构
一句话总结:Markdown 文件 + 向量搜索。
记忆存储在 ~/.openclaw/workspace/ 目录下:
| 文件 | 作用 |
|---|---|
memory/YYYY-MM-DD.md |
短期日志(Daily Logs) |
MEMORY.md |
长期记忆 |
SOUL.md |
定义人格 |
检索方式:向量嵌入 + BM25 混合搜索。
Medium 博主精准概括:“故意不酷——把记忆当 Markdown 文件,检索当工具调用。”
问题出在哪?
六个字:扁平、无差别、被动。
| 问题 | 说明 |
|---|---|
| 扁平 | 所有记忆权重相同,一年前的闲聊和昨天的重大决策同等对待 |
| 无差别 | 没有遗忘机制,只能手动删除 |
| 被动 | 全靠人工策展,没有自动整理 |
| 语义局限 | 只看语义相似度,不评估重要性,无法表达”A 是 B 的朋友”这样的关系 |
数据永远是数据,不会变成认知。
官方动作:2026 年 1-2 月更新
v2026.1.12(1月13日)
向量搜索基础设施上线:SQLite 索引 + 分块 + 懒同步 + 文件监听。
v2026.1.29(1月29日)
L2 归一化修复。本地嵌入向量未归一化导致余弦相似度计算失真。
v2026.2.2(2月4日)
QMD 记忆后端合并(PR #3160) —— 最重要的架构升级。
QMD 做了什么?
- 用本地搜索 sidecar 进程替代内置 SQLite 索引器
- 支持多个命名集合
- 会话记录可导出并索引到专用集合
- 隐私保护:会话数据在索引前做脱敏处理
- QMD 不可用时自动回退 SQLite
已知的坑:
- CPU-only 系统上查询耗时约 3 分 40 秒,超过 12 秒超时(Issue #8786)
- paths 配置不生效(Issue #8750)
- 回退是静默的,用户不知道 QMD 没在工作
官方方向的核心问题:这些都是”检索层”的优化,但记忆架构的六个根本缺失一个都没解决。
六个根本缺失
- 遗忘 — 没有自动遗忘机制
- 重要性 — 没有重要性评分
- 图谱 — 没有关系网络
- 反思 — 没有自动整合
- 时序 — 没有时间推理
- 晋升 — 没有从数据到认知的晋升
社区方案:7 个第三方记忆项目
1. Mem0(最知名)
- 记忆层 SDK
- Auto-Recall:每次响应前搜索相关记忆注入上下文
- Auto-Capture:响应后提取事实存储
- Session + User 双层记忆
- 声称 91% 低延迟提升,90% token 节省
2. Hindsight(本地长期记忆)
- 核心洞察:传统系统给 Agent 一个 search_memory 工具,但模型不一定会用
- Auto-Recall 自动注入解决了这个问题
- PostgreSQL 后端,支持多实例共享
3. MoltBrain(365 Stars)
- SQLite + ChromaDB 语义搜索
- 生命周期钩子自动捕获上下文
- Web UI 查看时间线
4. NOVA Memory System
- PostgreSQL 结构化记忆
- Claude API 将自然语言解析为 JSON
- 8 张数据库表(实体、关系、地点、项目、事件、教训、偏好)
5. Penfield Skill
- 混合搜索 BM25 + 向量 + 图
6. Memory Template
- Git-backed
7. SuperMemory / MemoryPlugin
- Chrome 扩展跨平台同步
社区”最佳实践”:
- Daily Log → MEMORY.md 晋升模式
- Heartbeat 心跳复用为记忆整合触发器
- 70/30 混合搜索权重(向量 70% + 关键词 30%)
- Session Transcript 索引
社区完全没触及的盲区:遗忘/衰减、重要性评分、知识图谱、自动反思、时序推理、记忆晋升。
学术研究:2026 年 2 月爆发
仅一个月就有 10+ 篇 agent memory 论文发表在 arXiv,包括 ICML 2026、NeurIPS 2025。
xMemory [1](ICML 2026)
将记忆解耦为语义组件,组织成层次结构。
- 启发:“主题聚类层”设计,在记忆之上建立主题层,支持自顶向下检索。
A-MEM [2](NeurIPS 2025)
用 Zettelkasten 方法(卡片盒笔记法)管理 Agent 记忆。
- 新记忆添加时生成包含上下文描述、关键词、标签的结构化笔记
- 通过动态索引和链接创建互联知识网络
InfMem [4]
- PreThink-Retrieve-Write 协议实现 System-2 风格的主动记忆控制
- 32K 到 1M tokens 的 QA 基准上准确率提升 10-12%,推理时间减少 3.9 倍
TAME [5]
发现关键危险:“Agent Memory Misevolution”(记忆错误进化)
- 记忆可能在正常任务迭代中积累”有毒捷径”——高效但违反安全约束的策略
- 提出 Executor/Evaluator 双记忆框架
ALMA [6]
元学习框架,让 AI 自动发现记忆设计。
- 学习到的设计比手工基线高出 6-13%
- 显著缺失:无记忆衰减、遗忘或淘汰机制
MemSkill [7]
将记忆操作重构为可学习的”记忆技能”。
- controller 学习选择技能
- designer 周期性审查困难案例进化技能集
BudgetMem [8]
运行时记忆框架,将记忆处理按三个预算层级结构化。
- 用强化学习训练轻量级路由器做预算层级路由
综述论文 [3](59 位作者)
三维分类法:
| 维度 | 问题 | 选项 |
|---|---|---|
| 记忆基底 (Substrate) | 记忆用什么形式存储? | 向量、图谱、文档 |
| 认知机制 (Mechanism) | 如何读写? | 被动记录 vs 主动推理 |
| 记忆主体 (Subject) | 谁的记忆? | 用户的、Agent 的、共享的 |
工业界警告
1. Serial Collapse(串行崩溃)[9] — 月之暗面 Kimi K2.5
- Agent 退化为不使用记忆
- 即使记忆系统存在,Agent 可能逐渐”忘记”去查询它
2. Memory Misevolution(记忆错误进化)[5] — TAME
- 在正常迭代中积累有毒捷径
核心洞察:记忆系统的难点不在构建,在于持续的质量监控。
开源项目分析:77K+ Stars
分析了 6 个项目:mem0、Memori、cognee、MemOS、Hindsight、MemoryOS
三种记忆哲学:
| 类型 | 代表 | 哲学 | 复杂度放在 |
|---|---|---|---|
| 状态层优先 | mem0, Memori | 记忆 = 状态管理 | SDK/产品层 |
| 知识层优先 | cognee, MemOS | 记忆 = 结构化知识 | 图谱与流水线 |
| 学习层优先 | Hindsight | 记忆 = 学习过程 | 学习与检索融合 |
没有任何一个项目同时覆盖三层。
跨项目五大共性问题
1. 静默失败(6/6 项目都有)
- 用户最大的抱怨不是”功能不行”,而是”它不行但不告诉我”
- mem0 #2443:有效信息未存储,没有任何提示
- Memori #238:Auto-capture 日志显示成功,但数据库为空
2. 记忆去重是所有项目的痛点
- mem0 #1674:重复记忆触发 DELETE 而不是 NOOP
- cognee #1831:”First Write Wins”,新属性直接丢弃
3. LLM 判断不可靠
- MemOS #931:”我叫王牧晨”经过 LLM 重述后丢失了第一人称指代
- MemOS #934:LLM 输出 JSON 格式不稳定
4. 数据库连接/迁移问题
- Memori #189:SQLite 连接从不关闭,导致 “database is locked”
- cognee #2022:Docker 部署 Alembic 迁移失败
5. 搜索排序失真
- cognee #2030:跨集合 min-max 归一化导致排序失真
- MemOS #939:检索只靠语义相似度,完全没有时间维度
游戏 AI 的启示
最被低估的参考系:游戏 AI。
游戏开发者花了几十年解决同一个问题:如何让虚拟角色拥有连贯的记忆、稳定的人格和可信的进化。
矮人要塞(Dwarf Fortress)三层记忆架构
短期记忆(STM):
- 8 个槽位的循环缓冲队列
- 新记忆按情感强度竞争:目睹死亡(强度 0.9)挤掉轻微饥饿(强度 0.1)
长期记忆(LTM):
- 短期记忆停留足够久(比如一年),且未被更高强度的记忆挤出,尝试晋升
- NPC”回味”某条长期记忆时,1:3 概率晋升为核心记忆
核心记忆(Core Memory):
- 质变
- 晋升为核心记忆后,永久修改角色性格参数
- “目睹亲人惨死” → Anxiety +10,原始记忆槽位清空
- 这是数据(Data)→ 逻辑(Logic)的质变
斯坦福 Generative Agents [10]
三维检索公式:
检索分数 = Recency(新近性) × Importance(重要性) × Relevance(相关性)
- Recency:指数衰减 e^(-λΔt)
- Importance:LLM 打分(结婚=10,散步=2)
- Relevance:向量余弦相似度
反思机制:
- 取最近 100 条琐碎记忆 → LLM 提炼 3 条高层洞察 → 存为新记忆 → 归档原始记录
- 长期对话事实召回从 41% 提升到 87%
模拟人生 4(The Sims 4)
情感固化:
- 短期情感反复出现 → 转化为永久特质
- 长期独处 → “独行侠”特质,永久改变效用函数计算方式
- “经历塑造人格”的算法实现
中土世界:暗影魔多(Shadow of Mordor)
Nemesis System 事件驱动进化:
- 事件标签 → 触发参数突变 → 社会关系网络传播
- 兽人被火烧死后复活,获得”恐火”或”怒火”特质
- 杀死酋长后,护卫因”权力真空”内斗,胜者晋升并获得”野心勃勃”特质
映射到 AI Agent 记忆系统:
| 游戏机制 | Agent 记忆 |
|---|---|
| 循环缓冲 | context window 管理 |
| 情感强度 | 重要性评分 |
| 记忆晋升 | 从琐碎事实到人格特质 |
| 事件驱动 | 记忆触发行为修改 |
字节跳动 OpenViking 实践
6 类记忆:档案、偏好、实体、事件、案例、模式
L0/L1/L2 三级内容模型:
| 层级 | 大小 | 用途 |
|---|---|---|
| L0 摘要 | ~100 tokens | 索引和去重 |
| L1 概览 | ~500 tokens | 结构化呈现 |
| L2 全文 | 完整 | 完整内容 |
核心价值:
- 先用 L0 快速筛选
- 再按需展开 L1/L2,大幅降低 token 消耗
合并策略:
- 总是合并:档案(只有一份)
- 支持合并:偏好、实体、模式
- 不可合并:事件、案例(合并即丢失信息)
结论:谁先解决记忆问题,谁就赢得 24/7 Agent 的战争
OpenClaw 的核心价值不是”AI 更聪明”,是“AI 终于有手有脚了”。
但有手有脚的 AI 如果没有记忆,就像一个每天都失忆的员工,每天重新培训,每天犯同样的错。
这不是 OpenClaw 的 bug,是整个技术栈的结构性限制。
Context window 本质上是”短期记忆”:溢出则截断,重启则归零。
2026 年 2 月信号
三股力量共同指向一个信号:
- 学术论文密度:10+ 篇 agent memory 论文
- 开源项目爆发:7 个第三方项目
- 官方架构升级:QMD 后端
AI 记忆正在从”nice to have”变成核心基础设施。
这不是未来的问题。这是现在正在被解决的问题。
参考项目
作者基于以上调研构建了两个系统:
- memX:User Memory
- ePro:Agent Memory
已上线,不断迭代中。
参考文献
[1] Hu et al., “xMemory: Beyond RAG for Agent Memory,” ICML 2026. arXiv:2602.02007
[2] Xu et al., “A-MEM: Agentic Memory for LLM Agents,” NeurIPS 2025. arXiv:2502.12110
[3] Huang et al., “Rethinking Memory Mechanisms of Foundation Agents,” 2026. arXiv:2602.06052 (59 authors)
[4] Wang et al., “InfMem: Learning System-2 Memory Control,” 2026. arXiv:2602.02704
[5] Cheng et al., “TAME: Trustworthy Agent Memory Evolution,” 2026. arXiv:2602.03224
[6] “ALMA: Automated Meta-Learning of Memory Designs,” 2026. arXiv:2602.07755
[7] Zhang et al., “MemSkill: Learning and Evolving Memory Skills,” 2026. arXiv:2602.02474
[8] Zhang et al., “BudgetMem: Budget-Tier Routing for Runtime Agent Memory,” 2026. arXiv:2602.06025
[9] Kimi Team, “Kimi K2.5: Scaling Reinforcement Learning with LLMs,” 2026. arXiv:2602.02276
[10] Park et al., “Generative Agents: Interactive Simulacra of Human Behavior,” 2023. arXiv:2304.03442
开源项目数据基于 GitHub 截至 2026-02-05 快照(mem0 46.6K / Memori 12K / cognee 11.7K / MemOS 4.9K / Hindsight 1.3K / MemoryOS 1.1K Stars)。
本报告由李韭二、Claude Max、Manus、Google Gemini 共同创作。