AI Agent 记忆机制综述

基于 “Memory in the Age of AI Agents” 论文列表的系统梳理

整理目的:系统梳理 AI Agent 记忆领域的核心论文与技术体系,面向产研汇报.
github: https://github.com/Shichun-Liu/Agent-Memory-Paper-List/tree/main

资料来源Agent-Memory-Paper-List | arXiv: 2512.13564

在这里插入图片描述

目录

  1. 概述与背景
  2. 统一分类框架(三维模型)
  3. 记忆形式(Forms)
  4. 记忆功能(Functions)
  5. 记忆动态(Dynamics)
  6. 核心代表性论文解析
  7. 生产级记忆系统
  8. 评测基准体系
  9. 技术挑战与研究方向
  10. 核心速查表

一、概述与背景

1.1 为什么记忆对 Agent 至关重要?

大模型 Agent 系统在近两年经历了爆发式发展,但一个根本性的瓶颈始终制约着 Agent 的实用化:跨会话持久记忆的缺失

┌─────────────────────────────────────────────────────────────────┐
│                    Agent 记忆的核心价值                           │
├─────────────────────────────────────────────────────────────────┤
│  ① 连续性  │ 跨会话保持用户偏好、历史记录和个性化信息             │
│  ② 效率性  │ 避免重复处理,直接复用已有知识和解决方案             │
│  ③ 适应性  │ 从交互中学习,随时间演化改进行为                    │
│  ④ 可靠性  │ 基于历史事实做出更准确的判断和预测                  │
└─────────────────────────────────────────────────────────────────┘

核心矛盾:LLM 上下文窗口虽已扩展至百万 token,但仍无法解决跨会话持久化、高效检索与动态演化等问题。

1.2 领域现状

  • arXiv 2512.13564(“Memory in the Age of AI Agents”)于 2025 年 12 月发布,是迄今最全面的 Agent 记忆综述
  • 论文长度 102 页,作者 48 位(多机构合作),已成为该领域的权威参考
  • 配套的 GitHub 论文列表(Shichun-Liu/Agent-Memory-Paper-List)收录 200+ 篇论文,按月持续更新,至 2026 年 1 月已获 1k+ Star
  • 论文指出:传统的"长/短期记忆"二分法 已不足以 捕捉当代 Agent 记忆系统的多样性,需要更精细的统一框架

二、统一分类框架(三维模型)

论文提出从三个正交维度对 Agent 记忆进行系统分类:

                    ┌─────────────────────────────────────────┐
                    │         Agent 记忆统一三维框架            │
                    └─────────────────────────────────────────┘

       维度1 Forms            维度2 Functions         维度3 Dynamics
     (记忆如何存储)          (记忆为何存在)          (记忆如何演化)
         │                        │                        │
    ┌────┴───┐              ┌─────┴──────┐           ┌─────┴──────┐
    │        │              │            │           │            │
  Token   Parametric     Factual   Experiential   Formation  Evolution
  级文本   参数权重       事实记忆   经验记忆        形成         演化
    │        │                    │               │            │
  Latent                     ┌───┴────┐       Retrieval   (巩固/遗忘)
  潜在状态                   │        │        检索
                          Episodic Semantic
                          情节记忆  语义记忆
                              │
                          Procedural
                          程序记忆

这三个维度相互独立、缺一不可

  • Forms 回答"记忆存在哪"
  • Functions 回答"记忆用来做什么"
  • Dynamics 回答"记忆怎么更新"

三、记忆形式(Forms)

3.1 三种存储形式对比

┌──────────────────┬────────────────────┬───────────────────┬─────────────────────┐
│ 形式              │ 特征                │ 代表实现           │ 优劣势              │
├──────────────────┼────────────────────┼───────────────────┼─────────────────────┤
│ Token-level      │ 显式、离散、可读    │ 向量数据库、文本DB │ 可解释、灵活        │
│ 文本级记忆        │ 存储在外部存储系统  │ RAG、知识图谱      │ 检索延迟、存储开销  │
├──────────────────┼────────────────────┼───────────────────┼─────────────────────┤
│ Parametric       │ 隐式、压缩、高效    │ LoRA、知识编辑     │ 零检索延迟          │
│ 参数级记忆        │ 编码在模型权重中    │ 持续学习           │ 难解释、可能遗忘    │
├──────────────────┼────────────────────┼───────────────────┼─────────────────────┤
│ Latent           │ 连续、稠密、高信息  │ KV缓存压缩         │ 实时处理效率高      │
│ 潜在状态记忆      │ 存在模型激活空间   │ RNN隐层扩展        │ 容量受限、不可持久  │
└──────────────────┴────────────────────┴───────────────────┴─────────────────────┘

3.2 Token 级记忆(当前主流)

Token 级记忆是目前工程实践中最常见的形式,包含:

  1. 结构化存储:关系型数据库、知识图谱
  2. 非结构化存储:向量数据库(ChromaDB、Pinecone、FAISS)
  3. 混合存储:Mem0 的"向量 + 图数据库"双轨架构

典型检索策略三类

  • Multi-round Retrieval(多轮迭代检索):通过多次检索扩大覆盖范围
  • Post-retrieval(后处理检索):先生成查询意图描述再检索
  • Hybrid-source Retrieval(混合源检索):内部记忆 + 外部知识库并行

四、记忆功能(Functions)

4.1 功能分类体系(源自认知科学)

          人类记忆系统                    Agent 记忆对应
     ┌────────────────┐            ┌─────────────────────┐
     │  工作记忆       │   ←→      │  上下文窗口           │
     │  (中央执行器)   │           │  当前任务状态管理      │
     └────────────────┘           └─────────────────────┘
     ┌────────────────┐            ┌─────────────────────┐
     │  情节记忆       │   ←→      │  对话历史、操作轨迹   │
     │  (时序事件)     │           │  带时间戳的经历记录   │
     └────────────────┘           └─────────────────────┘
     ┌────────────────┐            ┌─────────────────────┐
     │  语义记忆       │   ←→      │  用户偏好、世界知识   │
     │  (抽象知识)     │           │  从情节中提炼的规律   │
     └────────────────┘           └─────────────────────┘
     ┌────────────────┐            ┌─────────────────────┐
     │  程序记忆       │   ←→      │  可复用技能库、SOP   │
     │  (技能/习惯)    │           │  工具使用模式        │
     └────────────────┘           └─────────────────────┘

4.2 事实记忆(Factual Memory)

  • 通用事实:世界知识、常识
  • 领域特定事实:医疗、法律、技术领域知识
  • 技术路径:知识库 RAG、知识图谱(KG)、参数化知识注入

4.3 经验记忆(Experiential Memory)

情节记忆 vs 语义记忆的演化关系:

原始经历(情节)                    抽象化提炼(语义)
─────────────────                 ─────────────────
"用户在1月5日修正了DD/MM格式"  →    "用户偏好 DD/MM/YYYY 格式"
"3次任务中用户都选择了简洁模式"  →   "用户偏好简洁输出"
"上周完成了数学辅导5次"        →    "用户是高中数学学生"

程序记忆(Procedural Memory)代表系统

  • Voyager(2023):Minecraft 游戏 Agent 的可复用 JavaScript 技能库
  • LEGOMem(arXiv:2510.04851):模块化程序记忆,支持多 Agent 系统

4.4 工作记忆(Working Memory)

  • 对应 LLM 上下文窗口,作为"心理草稿本"
  • 核心挑战:容量限制内容选择
  • 研究热点:上下文压缩、动态剪枝、重要性评分

五、记忆动态(Dynamics)

5.1 三个核心过程

┌─────────────────────────────────────────────────────────────────────┐
│                    记忆生命周期(Memory Lifecycle)                    │
│                                                                      │
│   新输入  →  [Formation 形成]  →  [Storage 存储]  →  [Evolution 演化] │
│              提取关键信息       组织、索引、分类    巩固/遗忘/更新      │
│                                       ↕                             │
│   查询   ←  [Retrieval 检索]  ←─────────────────                   │
│              相关记忆召回                                             │
└─────────────────────────────────────────────────────────────────────┘

5.2 记忆形成(Formation)

  • 提取策略:LLM 驱动的信息提炼 vs 规则提取
  • 粒度选择:粗粒度(会话摘要)vs 细粒度(句子级情节存储)
  • 权衡:MemMachine 的"原始保全"方案 vs Mem0 的"LLM 提炼"方案

5.3 记忆演化(Evolution)

两类演化机制

类型 描述 代表工作
内部自演化 记忆系统内部的巩固与抽象 A-MEM(关联链接更新)
外部自探索 基于新环境反馈主动更新 AgeMem(RL 驱动)

巩固(Consolidation):短期→长期记忆的压缩与强化
遗忘(Forgetting):移除过时/冗余记忆,避免污染

5.4 记忆检索(Retrieval)

三种控制策略

  • 基于规则:阈值触发、关键词匹配(如 MemGPT 的中断机制)
  • 基于启发:重要性评分、时间衰减(如 Generative Agents 的三维评分)
  • 基于学习:RL 驱动的自适应检索(如 AgeMem、MemRL)

六、核心代表性论文解析

6.1 奠基性工作

MemGPT(arXiv:2310.08560,2023)
操作系统隐喻:LLM = CPU,上下文窗口 = RAM,持久存储 = 硬盘

         用户请求
             │
         LLM(CPU)
         ├── 上下文窗口(RAM)← 活跃记忆
         │         │ 超限时触发"中断"
         └── 持久存储(硬盘)← 不活跃记忆
               ├── main_context(核心要点)
               └── archival_storage(完整历史)
  • 核心创新:引入虚拟内存分页思想,通过中断机制主动管理上下文边界
  • 适用场景:长文档分析、多会话连续对话
  • 局限:LLM 驱动的记忆操作决策可能引入延迟,管理逻辑复杂
Generative Agents(arXiv:2304.03442,2023)
记忆流(Memory Stream)设计:

每条观测记录 = {
    内容文本,
    时间戳,
    重要性分数(1-10,由 LLM 评估),
    近期性分数(随时间指数衰减),
    相关性分数(与当前查询的语义相似度)
}

检索分数 = α₁ × 重要性 + α₂ × 近期性 + α₃ × 相关性
  • 核心创新:三维评分的记忆检索机制,以及从情节到规划/反思的层级架构
  • 影响:成为 Agent 模拟场景的经典范式

6.2 知识图谱型记忆

HippoRAG(arXiv:2405.14831,NeurIPS 2024)
仿海马索引机制:

  LLM 提取三元组  →  知识图谱构建
         │
  Personalized PageRank 算法
         │
  情节搜索 + 语义搜索 → 统一图检索框架
  • 仿照人脑海马体的记忆索引机制
  • 将情节搜索和语义搜索统一在图检索框架下
MAGMA(arXiv:2601.03236,2026 年 1 月)
多图架构:每条记忆同时在四个正交图上表示

  记忆项 M
    ├── 语义图  → 概念相似关系
    ├── 时序图  → 时间先后顺序
    ├── 因果图  → 因果依存关系
    └── 实体图  → 实体共现关系

检索 = 策略引导的跨图遍历(查询自适应选择图类型)
  • 核心创新:解耦记忆表示与检索逻辑,提供透明推理路径
  • 实验效果:在 LoCoMo 和 LongMemEval 上持续超越 SOTA
  • 适用场景:长时域推理、关系复杂的对话任务
Zep / 时序知识图谱(arXiv:2501.13956,2025)
  • 追踪事实随时间的演变轨迹(不覆盖而是版本化)
  • 结合图基记忆和向量搜索
  • 已进入生产部署阶段

6.3 Zettelkasten 启发的记忆

A-MEM(arXiv:2502.12110,2025 年 2 月)
Zettelkasten 原则映射:

传统卡片笔记法                    A-MEM 实现
─────────────                   ─────────────
每张卡片独立完整        →         每条记忆含上下文描述+关键词+标签
卡片之间互相引用        →         分析历史记忆建立相关连接
新卡片影响旧卡片解读    →         新记忆触发历史记忆的属性更新(记忆演化)
  • 核心创新:将卡片笔记法的结构化组织原则与 Agent 决策灵活性结合
  • 实验:在 6 个基础模型上相比 SOTA 基线有显著提升
  • 特点:记忆形成时自动生成知识网络,而非线性存储

6.4 强化学习驱动的记忆

AgeMem(arXiv:2601.01885,2026 年 1 月)
统一 LTM + STM 的 RL 框架:

                  Agent 策略网络
                       │
            ┌──────────┼──────────┐
            │          │          │
          存储        检索        更新
          LTM       相关记忆     删除过时
            │          │          │
         长期记忆库  短期上下文  遗忘机制

训练:三阶段渐进 RL + step-wise GRPO
     (处理记忆操作引发的稀疏不连续奖励)
  • 核心创新:将记忆管理完全纳入 Agent 策略,通过 RL 端到端学习
  • 实验:在 5 个长时域基准上超越强记忆增强基线
  • 意义:记忆管理从"规则触发"→"学习决策"的范式转移
MemRL(arXiv:2601.03192,2026 年 1 月)
  • 将记忆检索建模为 MDP(马尔可夫决策过程)
  • 非参数 RL(不更新模型权重)解决稳定性-可塑性困境
  • 在运行时通过 RL 实现 Agent 在情节记忆上的自演化
Memory-R1(arXiv:2508.19828,2025 年 8 月)
  • 将强化学习引入 LLM Agent 的记忆管理与使用
  • 基于 R1 系列的推理增强思路,扩展至记忆操作决策

6.5 其他重要 2025-2026 年论文

论文 arXiv 时间 方法概要
EverMemOS 2601.02163 2026.01 用于长时域推理的自组织记忆操作系统
MemOS 2505.22101 2025.05 记忆操作系统:参数/激活/明文三类记忆统一调度
MemEvolve 2512.18746 2025.12 通过元演化自动优化 Agent 记忆系统配置
O-Mem 2511.13593 2025.11 全场景记忆系统,支持自演化 Agent
LEGOMem 2510.04851 2025.10 模块化程序记忆,面向多 Agent 系统
R3Mem 2502.15957 2025.02 通过可逆压缩桥接记忆保留与检索
MIRIX 2507.07957 2025.07 多模态多 Agent 记忆系统,比 RAG 准确率高 35%
GAM 2604.12285 2026.04 解耦编码与整合,解决流式记忆污染问题
SeCom 2025 主题分割优于按轮/会话的朴素分块
G-Memory 2506.07398 2025.06 多 Agent 系统的层级记忆追踪

七、生产级记忆系统

7.1 Mem0(arXiv:2504.19413,2025 年 4 月)

Mem0 架构(面向生产的记忆层):

对话输入
    │
    ▼
LLM 提取关键事实
    │
    ├──→ 向量数据库(语义搜索)
    └──→ 图数据库(关系推理)
            │
            ▼
     四级作用域模型:
     user scope  / agent scope / run scope / org scope

性能数据(vs 全上下文方案):

  • 延迟(p95)降低 91%
  • Token 成本降低 90%+
  • 精度下降约 6%(可接受范围)

限制:逐条消息的 LLM 提取成本较高,可能引入事实漂移

7.2 MemMachine(arXiv:2604.04853,2026 年 4 月)

三层记忆架构(地面真实保全设计):

                对话历史
                    │
        ┌───────────┼───────────┐
        ▼           ▼           ▼
   STM(短期)   情节库      用户画像
   当前上下文   原始对话     偏好/行为
               句子级索引   模式摘要
                    │
                    ▼
        上下文化检索(核心创新):
        核心匹配 + 邻近情节扩展 → 情节簇

性能数据

  • LoCoMo 总分 0.9169(gpt-4.1-mini)
  • LongMemEvalS 准确率 93.0%
  • 比 Mem0 节省约 80% input tokens

三种检索路由:直接检索 / 并行分解 / 迭代链式查询

7.3 DeerFlow 2.0 记忆实现(实际工程案例)

文件:backend/.deer-flow/memory.json

记忆格式:
{
    "content": "记忆内容文本",
    "confidence": 0.85,          // 置信度 ≥ 0.7 才纳入
    "source_thread_uuid": "xxx", // 来源追踪
    "timestamp": "...",
    "memory_type": "semantic"
}

技术栈:
- ChromaDB(向量存储)
- TIAMAT 云端后端(持久化)
- LangGraph(工作流编排)

7.4 NousResearch Hermes 记忆四层架构

Plugin(插件层)        Hindsight (知识图谱增强)
       ↓
MemoryProvider(提供层) 注入系统提示:冻结快照(会话开始时)
       ↓
MemoryManager(管理层)  认知记忆操作(LLM 驱动):
                         encode / consolidate / recall / extract / forget
       ↓
MemoryStore(存储层)    FTS5 全文检索 + 向量语义检索

八、评测基准体系

8.1 主流基准对比

┌──────────────────┬──────────────────────────────┬─────────────┬──────────────┐
│ 基准              │ 特点                          │ 核心指标     │ 发布时间     │
├──────────────────┼──────────────────────────────┼─────────────┼──────────────┤
│ LoCoMo           │ 长期对话记忆,多轮问答          │ 综合得分     │ 2024        │
│ LongMemEval      │ 六维度长期记忆评测(ICLR 2025)│ 准确率       │ 2025        │
│ MemBench         │ 引入学习式记忆控制,多维评测     │ 多维度       │ 2025        │
│ MemoryArena      │ 多会话相互依赖任务              │ 任务完成率   │ 2025        │
│ AlpsBench        │ 真实对话数据(arXiv 2603.26680)│ 自然度       │ 2026        │
│ HotpotQA         │ 多跳推理检索评测               │ EM/F1        │ 经典         │
└──────────────────┴──────────────────────────────┴─────────────┴──────────────┘

8.2 典型性能数据对比

系统 LoCoMo LongMemEvalS Token 效率
Full Context(基线) ~52.9% 最差
Mem0 省 90%
MemMachine 0.9169 93.0% 省 80% vs Mem0
MAGMA SOTA SOTA
PowerMem 78.70% 省 vs full-context

九、技术挑战与研究方向

9.1 当前五大挑战

┌─────────────────────────────────────────────────────────────────┐
│                      Agent 记忆五大挑战                           │
├─────────────────────┬───────────────────────────────────────────┤
│ 有用性               │ 记忆真的帮到当前任务了吗?                  │
│ (Usefulness)        │ 挑战:相关性判断、噪声过滤                  │
├─────────────────────┼───────────────────────────────────────────┤
│ 效率性               │ 低延迟获取正确记忆                          │
│ (Efficiency)        │ 挑战:检索速度 vs 精度权衡                  │
├─────────────────────┼───────────────────────────────────────────┤
│ 适应性               │ 记忆能随时间演化改进吗?                    │
│ (Adaptability)      │ 挑战:稳定性-可塑性困境                    │
├─────────────────────┼───────────────────────────────────────────┤
│ 忠实性               │ 记忆准确、不产生幻觉吗?                   │
│ (Faithfulness)      │ 挑战:事实漂移、知识冲突                   │
├─────────────────────┼───────────────────────────────────────────┤
│ 治理性               │ 记忆的访问控制、隐私保护                   │
│ (Governance)        │ 挑战:跨用户隔离、敏感信息处理              │
└─────────────────────┴───────────────────────────────────────────┘

9.2 六大前沿研究方向

① 记忆自动化(Memory Automation)

  • 从手动设计记忆结构 → 自动发现最优记忆策略
  • 代表:MemEvolve(元演化方式自动优化记忆系统)

② 强化学习集成(RL Integration)

  • 将记忆管理决策纳入 Agent 策略学习
  • 代表:AgeMem、MemRL、Memory-R1
  • 核心挑战:记忆操作引发的稀疏奖励问题

③ 多模态记忆(Multimodal Memory)

  • 图像、音频、视频内容的记忆存储与检索
  • 代表:MIRIX(比 RAG 准确率高 35%)

④ 多智能体记忆(Multi-agent Memory)

  • Agent 间记忆共享与隔离的权衡
  • 代表:G-Memory、LEGOMem

⑤ 可信度问题(Trustworthiness)

  • 记忆的准确性验证、偏见检测、隐私保护

⑥ 评测标准化

  • 从静态问答评测 → 多会话 Agent 行为评测
  • 从单维度 → 多维度综合评估体系

十、核心速查表

10.1 论文选型指南

需求场景 推荐论文/方案 核心优势
长期对话个性化 Mem0 + MemMachine 生产就绪,Token 效率高
复杂关系推理 MAGMA + HippoRAG 多图表示,结构化检索
知识演化追踪 Zep(时序知识图谱) 版本化事实存储
技能复用/工具学习 LEGOMem + Voyager 模块化程序记忆
RL 自适应学习 AgeMem + MemRL 端到端记忆策略学习
知识网络构建 A-MEM Zettelkasten 关联记忆
多模态场景 MIRIX 跨模态记忆检索
多智能体系统 G-Memory + LEGOMem 层级共享记忆

10.2 三维框架速查

Forms(存什么):    Token文本 / 参数权重 / 潜在状态
Functions(做什么): 事实记忆 / 情节记忆 / 语义记忆 / 程序记忆 / 工作记忆
Dynamics(怎么变): 形成(提取) → 存储(索引) → 演化(巩固/遗忘) ⟵ 检索(召回)

10.3 关键论文索引

分类 代表论文 arXiv 年份
综述 Memory in the Age of AI Agents 2512.13564 2025.12
综述 Graph-based Agent Memory Survey 2602.05665 2026.02
奠基 MemGPT 2310.08560 2023
奠基 Generative Agents 2304.03442 2023
知识图谱 HippoRAG 2405.14831 2024
知识图谱 MAGMA 2601.03236 2026.01
知识图谱 Zep 2501.13956 2025
Zettelkasten A-MEM 2502.12110 2025.02
RL驱动 AgeMem 2601.01885 2026.01
RL驱动 MemRL 2601.03192 2026.01
RL驱动 Memory-R1 2508.19828 2025.08
生产级 Mem0 2504.19413 2025.04
生产级 MemMachine 2604.04853 2026.04
记忆OS MemOS 2505.22101 2025.05
多模态 MIRIX 2507.07957 2025.07
自演化 MemEvolve 2512.18746 2025.12
自演化 EverMemOS 2601.02163 2026.01

附录:Agent 记忆 vs 相关概念辨析

┌─────────────────────────────────────────────────────────────────────────┐
│                     概念边界辨析                                          │
├──────────────────┬──────────────────────────────────────────────────────┤
│ Agent Memory     │ ✓ 跨会话持久化  ✓ 与行动紧耦合  ✓ 自适应演化         │
├──────────────────┼──────────────────────────────────────────────────────┤
│ LLM Memory       │ × 无跨会话  × 不主动管理  ≈ 上下文窗口内知识          │
├──────────────────┼──────────────────────────────────────────────────────┤
│ RAG              │ × 静态外部知识库  × 被动检索  × 不随交互演化           │
├──────────────────┼──────────────────────────────────────────────────────┤
│ 上下文工程        │ × 会话内有效  × 不跨会话  × 手动管理                 │
└──────────────────┴──────────────────────────────────────────────────────┘

关键判断标准:是否"跨会话持久化"且"与 Agent 行动双向耦合"
Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐