- 短期记忆,即线程(thread)范围的记忆,通过在会话中维护消息历史来跟踪当前对话。LangGraph 将短期记忆作为智能体状态的一部分进行管理。状态通过检查点(checkpointer)持久化到数据库,因此线程可以随时恢复。短期记忆在图被调用或某个步骤完成时更新,并在每个步骤开始时读取状态。
- 长期记忆跨会话存储用户特定或应用级别的数据,并在对话线程_之间_共享。它可以_随时_在_任何线程_中被调用。记忆的作用域可以是任意自定义命名空间,而不仅限于单个线程 ID。LangGraph 提供了存储(stores)(参考文档)以供保存和调用长期记忆。

短期记忆
短期记忆让您的应用能够在单个线程或对话中记住之前的交互。线程将一次会话中的多次交互组织在一起,类似于电子邮件将消息分组到单个对话中。 LangGraph 将短期记忆作为智能体状态的一部分进行管理,通过线程范围的检查点持久化。该状态通常包含对话历史以及其他有状态数据,例如上传的文件、检索到的文档或生成的制品。通过将这些内容存储在图的状态中,机器人可以访问给定对话的完整上下文,同时保持不同线程之间的隔离。管理短期记忆
对话历史是短期记忆最常见的形式,而长对话对当今的 LLM 构成了挑战。完整的历史可能无法放入 LLM 的上下文窗口,从而导致不可恢复的错误。即使您的 LLM 支持完整的上下文长度,大多数 LLM 在处理长上下文时仍然表现不佳。它们会被过时或离题的内容”分散注意力”,同时还会遭受响应时间变慢和成本增加的问题。 聊天模型使用消息接受上下文,包括开发者提供的指令(系统消息)和用户输入(人类消息)。在聊天应用中,消息在人类输入和模型响应之间交替,形成一个随时间增长的消息列表。由于上下文窗口有限,且富含 token 的消息列表可能代价高昂,许多应用可以从手动删除或遗忘过时信息的技术中受益。
长期记忆
LangGraph 中的长期记忆允许系统在不同对话或会话中保留信息。与线程范围的短期记忆不同,长期记忆保存在自定义”命名空间”中。 长期记忆是一个复杂的挑战,没有放之四海而皆准的解决方案。但是,以下问题提供了一个框架,帮助您理清不同的技术:- 记忆的类型是什么?人类使用记忆来记住事实(语义记忆)、经历(情节记忆)和规则(程序记忆)。AI 智能体可以以同样的方式使用记忆。例如,AI 智能体可以使用记忆来记住关于用户的特定事实,以完成任务。
- 何时更新记忆?记忆可以作为智能体应用逻辑的一部分进行更新(例如,“在热路径上”)。在这种情况下,智能体通常在响应用户之前决定记住哪些事实。另外,记忆也可以作为后台任务进行更新(在后台/异步运行并生成记忆的逻辑)。我们在下方章节中解释这两种方法之间的权衡。
语义记忆
语义记忆,无论是在人类还是 AI 智能体中,都涉及对特定事实和概念的保留。在人类中,它可以包括在学校学到的信息以及对概念及其关系的理解。对于 AI 智能体,语义记忆通常用于通过记住过去交互中的事实或概念来个性化应用。语义记忆与”语义搜索”不同,后者是一种使用”含义”(通常是嵌入)来查找相似内容的技术。语义记忆是心理学术语,指存储事实和知识,而语义搜索是一种基于含义而非精确匹配来检索信息的方法。
个人档案
记忆可以是单个、持续更新的”个人档案”,包含关于用户、组织或其他实体(包括智能体本身)的范围明确且具体的信息。个人档案通常只是一个 JSON 文档,包含您为表示领域而选择的各种键值对。 在记住个人档案时,您需要确保每次都在更新档案。因此,您需要传入之前的档案并要求模型生成新档案(或某些可应用于旧档案的 JSON 补丁)。随着档案变大,这可能变得容易出错,在生成文档时将档案拆分为多个文档或使用严格解码以确保记忆模式保持有效可能会有所帮助。
集合
另外,记忆可以是一个随时间不断更新和扩展的文档集合。每个单独的记忆可以有更窄的范围,更容易生成,这意味着您不太可能随时间丢失信息。LLM 为新信息生成_新_对象比将新信息与现有档案协调更容易。因此,文档集合往往会带来更高的下游召回率。 然而,这将一些复杂性转移到了记忆更新上。模型现在必须_删除_或_更新_列表中的现有项目,这可能很棘手。此外,一些模型可能默认过度插入,而另一些则可能默认过度更新。请参阅 Trustcall 包,了解一种管理此问题的方法,并考虑使用评估工具(例如 LangSmith)来帮助您调整行为。 使用文档集合还会将复杂性转移到对列表的记忆搜索上。Store 目前支持语义搜索和按内容过滤两种方式。
最后,使用记忆集合可能使向模型提供全面上下文变得困难。虽然单个记忆可能遵循特定模式,但这种结构可能无法捕捉记忆之间的完整上下文或关系。因此,在使用这些记忆生成响应时,模型可能缺少在统一档案方式中更容易获得的重要上下文信息。

情节记忆
情节记忆,无论是在人类还是 AI 智能体中,都涉及回忆过去的事件或行动。CoALA 论文对此描述得很好:事实可以写入语义记忆,而经历可以写入情节记忆。对于 AI 智能体,情节记忆通常用于帮助智能体记住如何完成某项任务。 在实践中,情节记忆通常通过少样本示例提示来实现,智能体从过去的序列中学习以正确执行任务。有时”展示”比”讲述”更容易,LLM 从示例中学习效果很好。少样本学习让您可以通过使用输入输出示例更新提示词来”编程”您的 LLM,以说明预期行为。虽然可以使用各种最佳实践来生成少样本示例,但挑战往往在于根据用户输入选择最相关的示例。 请注意,记忆存储只是将数据作为少样本示例存储的一种方式。如果您希望开发者更多参与,或将少样本与评估框架更紧密地结合,您还可以使用 LangSmith 数据集来存储数据,并实现自己的检索逻辑,根据用户输入选择最相关的示例。 请参阅这篇博客文章,展示了少样本提示如何提升工具调用性能;以及这篇博客文章,介绍了使用少样本示例将 LLM 与人类偏好对齐的方法。程序记忆
程序记忆,无论是在人类还是 AI 智能体中,都涉及记住执行任务所用的规则。在人类中,程序记忆就像是如何执行任务的内化知识,例如通过基本运动技能和平衡感骑自行车。而情节记忆则涉及回忆特定的经历,例如第一次成功不带辅助轮骑自行车,或沿风景秀丽路线骑行的难忘经历。对于 AI 智能体,程序记忆是模型权重、智能体代码和智能体提示词的组合,共同决定智能体的功能。 在实践中,智能体修改其模型权重或重写代码的情况相当少见。然而,智能体修改自己的提示词则更为常见。 一种有效的改进智能体指令的方法是通过”反思(Reflection)“或元提示。这涉及将智能体的当前指令(例如系统提示词)与最近的对话或明确的用户反馈一起提示智能体。智能体随后根据这些输入来优化自己的指令。这种方法对于指令难以事先指定的任务特别有用,因为它允许智能体从交互中学习和适应。 例如,我们构建了一个推文生成器,使用外部反馈和提示词重写来为 Twitter 生成高质量的论文摘要。在这种情况下,特定的摘要提示词很难事先指定,但用户批评生成的推文并提供如何改进摘要过程的反馈却相当容易。 下面的伪代码展示了如何使用 LangGraph 记忆存储来实现这一点:使用存储保存提示词,update_instructions 节点获取当前提示词(以及从 state["messages"] 中捕获的与用户对话的反馈),更新提示词,并将新提示词保存回存储。然后,call_model 从存储中获取更新后的提示词,并用其生成响应。

写入记忆
智能体写入记忆有两种主要方法:“在热路径中”和”在后台”。
在热路径中
在运行时创建记忆既有优势也有挑战。从积极的一面来说,这种方法允许实时更新,使新记忆立即可用于后续交互。它还能实现透明度,因为可以在创建和存储记忆时通知用户。 然而,这种方法也面临挑战。如果智能体需要一个新工具来决定什么内容需要提交到记忆,可能会增加复杂性。此外,关于保存什么到记忆的推理过程可能会影响智能体延迟。最后,智能体必须在记忆创建和其他职责之间多任务处理,可能会影响创建记忆的数量和质量。 例如,ChatGPT 使用 save_memories 工具将记忆作为内容字符串进行更新插入,对每条用户消息决定是否以及如何使用此工具。请参阅我们的 memory-agent 模板作为参考实现。在后台
将创建记忆作为单独的后台任务有几个优势。它消除了主要应用中的延迟,将应用逻辑与记忆管理分离,并允许智能体更专注地完成任务。这种方法还提供了在时机上灵活安排记忆创建的弹性,以避免冗余工作。 然而,这种方法也有其自身的挑战。确定写入记忆的频率变得至关重要,因为不频繁的更新可能使其他线程缺少新上下文。决定何时触发记忆形成也很重要。常见策略包括在设定时间段后安排(如果发生新事件则重新安排)、使用定时任务,或允许用户或应用逻辑手动触发。 请参阅我们的 memory-service 模板作为参考实现。记忆存储
LangGraph 将长期记忆作为 JSON 文档存储在存储中。每个记忆都组织在自定义namespace(类似于文件夹)和独特的 key(类似于文件名)下。命名空间通常包含用户或组织 ID 或其他标签,使信息更易于组织。这种结构支持记忆的层级化组织。然后通过内容过滤器支持跨命名空间搜索。
了解更多
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时解答。

