多智能体

多智能体系统协调专门的组件来处理复杂的工作流。然而，并非每个复杂任务都需要这种方法——一个拥有合适（有时是动态的）工具和提示的单一智能体通常也能达到类似的效果。

为什么需要多智能体？

当开发者说他们需要“多智能体”时，他们通常是在寻找以下一种或多种能力：

上下文管理：提供专门的知识，而不会压垮模型的上下文窗口。如果上下文是无限的且延迟为零，你可以将所有知识倾倒进一个提示中——但事实并非如此，因此你需要模式来有选择地呈现相关信息。
分布式开发：允许不同的团队独立开发和维护能力，并将它们组合成一个具有清晰边界的大系统。
并行化：为子任务生成专门的工作者并并发执行它们，以获得更快的结果。

当单一智能体拥有太多工具并对使用哪个工具做出糟糕的决策时，或者当任务需要具有广泛上下文的专门知识（长提示和领域特定工具）时，或者当你需要强制执行顺序约束以在满足特定条件后才解锁能力时，多智能体模式尤其有价值。

多智能体设计的核心是**上下文工程**——决定每个智能体看到什么信息。系统的质量取决于确保每个智能体都能访问其任务所需的正确数据。

模式

以下是构建多智能体系统的主要模式，每种模式都适用于不同的用例：

模式	工作原理
子智能体	一个主智能体将子智能体作为工具进行协调。所有路由都通过主智能体，主智能体决定何时以及如何调用每个子智能体。
交接	行为根据状态动态变化。工具调用更新状态变量，该变量会触发路由或配置更改，从而切换智能体或调整当前智能体的工具和提示。
技能	按需加载的专门提示和知识。一个单一智能体保持控制，同时根据需要从技能加载上下文。
路由器	一个路由步骤对输入进行分类，并将其定向到一个或多个专门的智能体。结果被合成为一个组合响应。
自定义工作流	使用LangGraph构建定制的执行流，混合确定性逻辑和智能体行为。将其他模式作为节点嵌入到你的工作流中。

选择模式

使用此表将你的需求与正确的模式匹配：

模式	分布式开发	并行化	多跳	直接用户交互
子智能体	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐
交接	-	-	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
技能	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
路由器	⭐⭐⭐	⭐⭐⭐⭐⭐	-	⭐⭐⭐

分布式开发：不同的团队能否独立维护组件？
并行化：多个智能体能否并发执行？
多跳：该模式是否支持按顺序调用多个子智能体？
直接用户交互：子智能体能否直接与用户对话？

你可以混合模式！例如，一个子智能体架构可以调用工具，这些工具又调用自定义工作流或路由器智能体。子智能体甚至可以使用技能模式按需加载上下文。可能性是无穷的！

可视化概览

子智能体
交接
技能
路由器

一个主智能体将子智能体作为工具进行协调。所有路由都通过主智能体。

性能比较

不同的模式具有不同的性能特征。理解这些权衡有助于你根据延迟和成本要求选择正确的模式。 关键指标：

模型调用：LLM 调用的次数。调用越多 = 延迟越高（尤其是顺序调用时）且每个请求的 API 成本越高。
处理的 Token：所有调用中使用的总上下文窗口。Token 越多 = 处理成本越高且可能面临上下文限制。

单次请求

用户： “买咖啡”

一个专门的咖啡智能体/技能可以调用 buy_coffee 工具。

模式	模型调用	最佳匹配
子智能体	4
交接	3	✅
技能	3	✅
路由器	3	✅

子智能体
交接
技能
路由器

4 次模型调用：

关键洞察： 对于单任务，交接、技能和路由器最高效（各 3 次调用）。子智能体增加了一次额外调用，因为结果会流回主智能体——这种开销提供了集中控制。

重复请求

第 1 轮： “买咖啡” 第 2 轮： “再买一次咖啡”

用户在同一对话中重复相同的请求。

模式	第 2 轮调用	总计（两轮）	最佳匹配
子智能体	4	8
交接	2	5	✅
技能	2	5	✅
路由器	3	6

子智能体
交接
技能
路由器

再次 4 次调用 → 总计 8 次

子智能体设计上是无状态的——每次调用都遵循相同的流程
主智能体维护对话上下文，但子智能体每次都是从头开始
这提供了强大的上下文隔离，但会重复整个流程

2 次调用 → 总计 5 次

咖啡智能体从第 1 轮开始仍然处于活动状态（状态持久）
不需要交接——智能体直接调用 buy_coffee 工具（调用 1）
智能体响应用户（调用 2）
通过跳过交接节省了 1 次调用

2 次调用 → 总计 5 次

技能上下文已加载在对话历史中
无需重新加载——智能体直接调用 buy_coffee 工具（调用 1）
智能体响应用户（调用 2）
通过重用已加载的技能节省了 1 次调用

关键洞察： 有状态模式（交接、技能）在重复请求上节省了 40-50% 的调用。子智能体保持每个请求的成本一致——这种无状态设计提供了强大的上下文隔离，但代价是重复的模型调用。

多领域

用户： “比较 Python、JavaScript 和 Rust 用于 Web 开发”

每种语言智能体/技能包含约 2000 个 Token 的文档。所有模式都可以进行并行工具调用。

模式	模型调用	总 Token	最佳匹配
子智能体	5	~9K	✅
交接	7+	~14K+
技能	3	~15K
路由器	5	~9K	✅

子智能体
交接
技能
路由器

5 次调用，~9K Token

每个子智能体隔离工作，仅使用其相关上下文。总计：9K Token。

关键洞察： 对于多领域任务，具有并行执行的模式（子智能体、路由器）最高效。技能调用次数较少，但由于上下文累积，Token 使用量较高。交接在这里效率低下——它必须顺序执行，并且无法利用并行工具调用来同时咨询多个领域。

总结

以下是所有三种场景的模式比较：

模式	单次请求	重复请求	多领域
子智能体	4 次调用	8 次调用 (4+4)	5 次调用，9K Token
交接	3 次调用	5 次调用 (3+2)	7+ 次调用，14K+ Token
技能	3 次调用	5 次调用 (3+2)	3 次调用，15K Token
路由器	3 次调用	6 次调用 (3+3)	5 次调用，9K Token

选择模式：

优化目标	子智能体	交接	技能	路由器
单次请求		✅	✅	✅
重复请求		✅	✅
并行执行	✅			✅
大上下文领域	✅			✅
简单、专注的任务			✅

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等，以获取实时答案。

Get started

Core components

Middleware

Frontend

Advanced usage

Agent development

Deploy with LangSmith

为什么需要多智能体？

模式

选择模式

可视化概览

性能比较

单次请求

重复请求

多领域

总结

Get started

Core components

Middleware

Frontend

Advanced usage

Agent development

Deploy with LangSmith

​为什么需要多智能体？

​模式

​选择模式

​可视化概览

​性能比较

​单次请求

​重复请求

​多领域

​总结

为什么需要多智能体？

模式

选择模式

可视化概览

性能比较

单次请求

重复请求

多领域

总结