原文: 李韭二 (@lijiuer92)
一篇关于 OpenClaw 记忆痛点的深度拆解,从现状到方案,从学术到工程。


核心问题:你的 OpenClaw 小龙虾每次失忆

先说一个数字:45 小时。

GitHub Issue #5429 的报告者 EmpireCreator 丢失了 45 小时的 Agent 积累上下文:技能配置、集成参数、任务优先级。原因是一次静默压缩(compaction)清除了所有对话历史,没有警告,没有恢复选项。

这不是个案。

  • Issue #2624:Agent 随机重置,忘记 2 条消息前的对话
  • Issue #8723:Memory flush 触发无限循环,锁死 Agent 72 分钟

社区的推文说得最直白:“Everyone complains their OpenClaw has amnesia.”


OpenClaw 当前记忆架构

一句话总结:Markdown 文件 + 向量搜索。

记忆存储在 ~/.openclaw/workspace/ 目录下:

文件 作用
memory/YYYY-MM-DD.md 短期日志(Daily Logs)
MEMORY.md 长期记忆
SOUL.md 定义人格

检索方式:向量嵌入 + BM25 混合搜索。

Medium 博主精准概括:“故意不酷——把记忆当 Markdown 文件,检索当工具调用。”


问题出在哪?

六个字:扁平、无差别、被动。

问题 说明
扁平 所有记忆权重相同,一年前的闲聊和昨天的重大决策同等对待
无差别 没有遗忘机制,只能手动删除
被动 全靠人工策展,没有自动整理
语义局限 只看语义相似度,不评估重要性,无法表达”A 是 B 的朋友”这样的关系

数据永远是数据,不会变成认知。


官方动作:2026 年 1-2 月更新

v2026.1.12(1月13日)

向量搜索基础设施上线:SQLite 索引 + 分块 + 懒同步 + 文件监听。

v2026.1.29(1月29日)

L2 归一化修复。本地嵌入向量未归一化导致余弦相似度计算失真。

v2026.2.2(2月4日)

QMD 记忆后端合并(PR #3160) —— 最重要的架构升级。

QMD 做了什么?

  • 用本地搜索 sidecar 进程替代内置 SQLite 索引器
  • 支持多个命名集合
  • 会话记录可导出并索引到专用集合
  • 隐私保护:会话数据在索引前做脱敏处理
  • QMD 不可用时自动回退 SQLite

已知的坑

  • CPU-only 系统上查询耗时约 3 分 40 秒,超过 12 秒超时(Issue #8786)
  • paths 配置不生效(Issue #8750)
  • 回退是静默的,用户不知道 QMD 没在工作

官方方向的核心问题:这些都是”检索层”的优化,但记忆架构的六个根本缺失一个都没解决。


六个根本缺失

  1. 遗忘 — 没有自动遗忘机制
  2. 重要性 — 没有重要性评分
  3. 图谱 — 没有关系网络
  4. 反思 — 没有自动整合
  5. 时序 — 没有时间推理
  6. 晋升 — 没有从数据到认知的晋升

社区方案:7 个第三方记忆项目

1. Mem0(最知名)

  • 记忆层 SDK
  • Auto-Recall:每次响应前搜索相关记忆注入上下文
  • Auto-Capture:响应后提取事实存储
  • Session + User 双层记忆
  • 声称 91% 低延迟提升,90% token 节省

2. Hindsight(本地长期记忆)

  • 核心洞察:传统系统给 Agent 一个 search_memory 工具,但模型不一定会用
  • Auto-Recall 自动注入解决了这个问题
  • PostgreSQL 后端,支持多实例共享

3. MoltBrain(365 Stars)

  • SQLite + ChromaDB 语义搜索
  • 生命周期钩子自动捕获上下文
  • Web UI 查看时间线

4. NOVA Memory System

  • PostgreSQL 结构化记忆
  • Claude API 将自然语言解析为 JSON
  • 8 张数据库表(实体、关系、地点、项目、事件、教训、偏好)

5. Penfield Skill

  • 混合搜索 BM25 + 向量 + 图

6. Memory Template

  • Git-backed

7. SuperMemory / MemoryPlugin

  • Chrome 扩展跨平台同步

社区”最佳实践”

  • Daily Log → MEMORY.md 晋升模式
  • Heartbeat 心跳复用为记忆整合触发器
  • 70/30 混合搜索权重(向量 70% + 关键词 30%)
  • Session Transcript 索引

社区完全没触及的盲区:遗忘/衰减、重要性评分、知识图谱、自动反思、时序推理、记忆晋升。


学术研究:2026 年 2 月爆发

仅一个月就有 10+ 篇 agent memory 论文发表在 arXiv,包括 ICML 2026、NeurIPS 2025。

xMemory [1](ICML 2026)

将记忆解耦为语义组件,组织成层次结构。

  • 启发:“主题聚类层”设计,在记忆之上建立主题层,支持自顶向下检索。

A-MEM [2](NeurIPS 2025)

Zettelkasten 方法(卡片盒笔记法)管理 Agent 记忆。

  • 新记忆添加时生成包含上下文描述、关键词、标签的结构化笔记
  • 通过动态索引和链接创建互联知识网络

InfMem [4]

  • PreThink-Retrieve-Write 协议实现 System-2 风格的主动记忆控制
  • 32K 到 1M tokens 的 QA 基准上准确率提升 10-12%,推理时间减少 3.9 倍

TAME [5]

发现关键危险:“Agent Memory Misevolution”(记忆错误进化)

  • 记忆可能在正常任务迭代中积累”有毒捷径”——高效但违反安全约束的策略
  • 提出 Executor/Evaluator 双记忆框架

ALMA [6]

元学习框架,让 AI 自动发现记忆设计。

  • 学习到的设计比手工基线高出 6-13%
  • 显著缺失:无记忆衰减、遗忘或淘汰机制

MemSkill [7]

将记忆操作重构为可学习的”记忆技能”。

  • controller 学习选择技能
  • designer 周期性审查困难案例进化技能集

BudgetMem [8]

运行时记忆框架,将记忆处理按三个预算层级结构化。

  • 用强化学习训练轻量级路由器做预算层级路由

综述论文 [3](59 位作者)

三维分类法

维度 问题 选项
记忆基底 (Substrate) 记忆用什么形式存储? 向量、图谱、文档
认知机制 (Mechanism) 如何读写? 被动记录 vs 主动推理
记忆主体 (Subject) 谁的记忆? 用户的、Agent 的、共享的

工业界警告

1. Serial Collapse(串行崩溃)[9] — 月之暗面 Kimi K2.5

  • Agent 退化为不使用记忆
  • 即使记忆系统存在,Agent 可能逐渐”忘记”去查询它

2. Memory Misevolution(记忆错误进化)[5] — TAME

  • 在正常迭代中积累有毒捷径

核心洞察:记忆系统的难点不在构建,在于持续的质量监控


开源项目分析:77K+ Stars

分析了 6 个项目:mem0、Memori、cognee、MemOS、Hindsight、MemoryOS

三种记忆哲学

类型 代表 哲学 复杂度放在
状态层优先 mem0, Memori 记忆 = 状态管理 SDK/产品层
知识层优先 cognee, MemOS 记忆 = 结构化知识 图谱与流水线
学习层优先 Hindsight 记忆 = 学习过程 学习与检索融合

没有任何一个项目同时覆盖三层。

跨项目五大共性问题

1. 静默失败(6/6 项目都有)

  • 用户最大的抱怨不是”功能不行”,而是”它不行但不告诉我”
  • mem0 #2443:有效信息未存储,没有任何提示
  • Memori #238:Auto-capture 日志显示成功,但数据库为空

2. 记忆去重是所有项目的痛点

  • mem0 #1674:重复记忆触发 DELETE 而不是 NOOP
  • cognee #1831:”First Write Wins”,新属性直接丢弃

3. LLM 判断不可靠

  • MemOS #931:”我叫王牧晨”经过 LLM 重述后丢失了第一人称指代
  • MemOS #934:LLM 输出 JSON 格式不稳定

4. 数据库连接/迁移问题

  • Memori #189:SQLite 连接从不关闭,导致 “database is locked”
  • cognee #2022:Docker 部署 Alembic 迁移失败

5. 搜索排序失真

  • cognee #2030:跨集合 min-max 归一化导致排序失真
  • MemOS #939:检索只靠语义相似度,完全没有时间维度

游戏 AI 的启示

最被低估的参考系:游戏 AI

游戏开发者花了几十年解决同一个问题:如何让虚拟角色拥有连贯的记忆、稳定的人格和可信的进化。

矮人要塞(Dwarf Fortress)三层记忆架构

短期记忆(STM)

  • 8 个槽位的循环缓冲队列
  • 新记忆按情感强度竞争:目睹死亡(强度 0.9)挤掉轻微饥饿(强度 0.1)

长期记忆(LTM)

  • 短期记忆停留足够久(比如一年),且未被更高强度的记忆挤出,尝试晋升
  • NPC”回味”某条长期记忆时,1:3 概率晋升为核心记忆

核心记忆(Core Memory)

  • 质变
  • 晋升为核心记忆后,永久修改角色性格参数
  • “目睹亲人惨死” → Anxiety +10,原始记忆槽位清空
  • 这是数据(Data)→ 逻辑(Logic)的质变

斯坦福 Generative Agents [10]

三维检索公式

检索分数 = Recency(新近性) × Importance(重要性) × Relevance(相关性)
  • Recency:指数衰减 e^(-λΔt)
  • Importance:LLM 打分(结婚=10,散步=2)
  • Relevance:向量余弦相似度

反思机制

  • 取最近 100 条琐碎记忆 → LLM 提炼 3 条高层洞察 → 存为新记忆 → 归档原始记录
  • 长期对话事实召回从 41% 提升到 87%

模拟人生 4(The Sims 4)

情感固化

  • 短期情感反复出现 → 转化为永久特质
  • 长期独处 → “独行侠”特质,永久改变效用函数计算方式
  • “经历塑造人格”的算法实现

中土世界:暗影魔多(Shadow of Mordor)

Nemesis System 事件驱动进化

  • 事件标签 → 触发参数突变 → 社会关系网络传播
  • 兽人被火烧死后复活,获得”恐火”或”怒火”特质
  • 杀死酋长后,护卫因”权力真空”内斗,胜者晋升并获得”野心勃勃”特质

映射到 AI Agent 记忆系统

游戏机制 Agent 记忆
循环缓冲 context window 管理
情感强度 重要性评分
记忆晋升 从琐碎事实到人格特质
事件驱动 记忆触发行为修改

字节跳动 OpenViking 实践

6 类记忆:档案、偏好、实体、事件、案例、模式

L0/L1/L2 三级内容模型

层级 大小 用途
L0 摘要 ~100 tokens 索引和去重
L1 概览 ~500 tokens 结构化呈现
L2 全文 完整 完整内容

核心价值

  • 先用 L0 快速筛选
  • 再按需展开 L1/L2,大幅降低 token 消耗

合并策略

  • 总是合并:档案(只有一份)
  • 支持合并:偏好、实体、模式
  • 不可合并:事件、案例(合并即丢失信息)

结论:谁先解决记忆问题,谁就赢得 24/7 Agent 的战争

OpenClaw 的核心价值不是”AI 更聪明”,是“AI 终于有手有脚了”

但有手有脚的 AI 如果没有记忆,就像一个每天都失忆的员工,每天重新培训,每天犯同样的错。

这不是 OpenClaw 的 bug,是整个技术栈的结构性限制。

Context window 本质上是”短期记忆”:溢出则截断,重启则归零


2026 年 2 月信号

三股力量共同指向一个信号:

  • 学术论文密度:10+ 篇 agent memory 论文
  • 开源项目爆发:7 个第三方项目
  • 官方架构升级:QMD 后端

AI 记忆正在从”nice to have”变成核心基础设施。

这不是未来的问题。这是现在正在被解决的问题。


参考项目

作者基于以上调研构建了两个系统:

  • memX:User Memory
  • ePro:Agent Memory

已上线,不断迭代中。


参考文献

[1] Hu et al., “xMemory: Beyond RAG for Agent Memory,” ICML 2026. arXiv:2602.02007

[2] Xu et al., “A-MEM: Agentic Memory for LLM Agents,” NeurIPS 2025. arXiv:2502.12110

[3] Huang et al., “Rethinking Memory Mechanisms of Foundation Agents,” 2026. arXiv:2602.06052 (59 authors)

[4] Wang et al., “InfMem: Learning System-2 Memory Control,” 2026. arXiv:2602.02704

[5] Cheng et al., “TAME: Trustworthy Agent Memory Evolution,” 2026. arXiv:2602.03224

[6] “ALMA: Automated Meta-Learning of Memory Designs,” 2026. arXiv:2602.07755

[7] Zhang et al., “MemSkill: Learning and Evolving Memory Skills,” 2026. arXiv:2602.02474

[8] Zhang et al., “BudgetMem: Budget-Tier Routing for Runtime Agent Memory,” 2026. arXiv:2602.06025

[9] Kimi Team, “Kimi K2.5: Scaling Reinforcement Learning with LLMs,” 2026. arXiv:2602.02276

[10] Park et al., “Generative Agents: Interactive Simulacra of Human Behavior,” 2023. arXiv:2304.03442


开源项目数据基于 GitHub 截至 2026-02-05 快照(mem0 46.6K / Memori 12K / cognee 11.7K / MemOS 4.9K / Hindsight 1.3K / MemoryOS 1.1K Stars)。

本报告由李韭二、Claude Max、Manus、Google Gemini 共同创作。