多智能体系统协调专门的组件来处理复杂的工作流程。然而,并非每个复杂任务都需要这种方法——一个配备了合适(有时是动态的)工具和提示的单一智能体通常也能达到类似的效果。
为什么需要多智能体?
当开发者说他们需要“多智能体”时,他们通常是在寻找以下一种或多种能力:
- 上下文管理:提供专门的知识,而不会使模型的上下文窗口不堪重负。如果上下文是无限的且延迟为零,你可以将所有知识倾倒到一个提示中——但既然不是,你就需要模式来有选择地呈现相关信息。
- 分布式开发:允许不同的团队独立开发和维护功能,并将它们组合成一个具有清晰边界的大系统。
- 并行化:为子任务生成专门的工作者并并发执行它们,以获得更快的结果。
当单一智能体拥有太多工具并且在使用哪些工具上做出糟糕的决策时,当任务需要具有广泛上下文(长提示和特定领域的工具)的专门知识时,或者当你需要强制执行顺序约束,只有在满足某些条件后才能解锁功能时,多智能体模式尤其有价值。
多智能体设计的核心是**上下文工程**——决定每个智能体看到什么信息。你系统的质量取决于确保每个智能体都能访问其任务所需的正确数据。
以下是构建多智能体系统的主要模式,每种模式都适用于不同的用例:
| 模式 | 工作原理 |
|---|
| 子智能体 | 一个主智能体将子智能体作为工具进行协调。所有路由都通过主智能体,由它决定何时以及如何调用每个子智能体。 |
| 交接 | 行为根据状态动态变化。工具调用更新一个状态变量,该变量触发路由或配置更改,切换智能体或调整当前智能体的工具和提示。 |
| 技能 | 按需加载的专门提示和知识。单个智能体保持控制权,同时根据需要从技能加载上下文。 |
| 路由器 | 一个路由步骤对输入进行分类,并将其定向到一个或多个专门的智能体。结果被合成为一个组合响应。 |
| 自定义工作流 | 使用 LangGraph 构建定制的执行流程,混合确定性逻辑和智能体行为。将其他模式作为节点嵌入到你的工作流中。 |
选择模式
使用此表将你的需求与合适的模式匹配:
| 模式 | 分布式开发 | 并行化 | 多跳 | 直接用户交互 |
|---|
| 子智能体 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐ |
| 交接 | - | - | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 技能 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 路由器 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | - | ⭐⭐⭐ |
- 分布式开发:不同的团队能否独立维护组件?
- 并行化:多个智能体能否并发执行?
- 多跳:该模式是否支持串联调用多个子智能体?
- 直接用户交互:子智能体能否直接与用户对话?
你可以混合使用模式!例如,一个子智能体架构可以调用调用自定义工作流或路由器智能体的工具。子智能体甚至可以使用技能模式按需加载上下文。可能性是无穷无尽的!
可视化概览
一个主智能体将子智能体作为工具进行协调。所有路由都通过主智能体。 智能体通过工具调用相互传递控制权。每个智能体都可以移交给其他智能体或直接响应用户。 单个智能体按需加载专门的提示和知识,同时保持控制权。 一个路由步骤对输入进行分类,并将其定向到专门的智能体。结果被合成。
性能比较
不同的模式具有不同的性能特征。理解这些权衡有助于你为延迟和成本要求选择合适的模式。
关键指标:
- 模型调用次数:LLM 调用的次数。调用次数越多 = 延迟越高(尤其是顺序执行时)以及每次请求的 API 成本越高。
- 处理的令牌数:所有调用中使用的总上下文窗口。令牌越多 = 处理成本越高,并且可能达到上下文限制。
单次请求
用户: “买咖啡”
一个专门的咖啡智能体/技能可以调用 buy_coffee 工具。
| 模式 | 模型调用次数 | 最适合 |
|---|
| 子智能体 | 4 | |
| 交接 | 3 | ✅ |
| 技能 | 3 | ✅ |
| 路由器 | 3 | ✅ |
关键洞察: 对于单次任务,交接、技能和路由器最有效(各 3 次调用)。子智能体增加了一次额外调用,因为结果需要流回主智能体——这种开销提供了集中控制。
重复请求
第 1 轮: “买咖啡”
第 2 轮: “再买一次咖啡”
用户在同一对话中重复相同的请求。
再次 4 次调用 → 总计 8 次
- 子智能体设计上是无状态的——每次调用都遵循相同的流程
- 主智能体维护对话上下文,但子智能体每次都是全新开始
- 这提供了强大的上下文隔离,但重复了完整的流程
2 次调用 → 总计 5 次
- 咖啡智能体从第 1 轮仍然处于活动状态(状态持续)
- 无需交接——智能体直接调用
buy_coffee 工具(调用 1)
- 智能体响应用户(调用 2)
- 通过跳过交接节省了 1 次调用
2 次调用 → 总计 5 次
- 技能上下文已经加载在对话历史中
- 无需重新加载——智能体直接调用
buy_coffee 工具(调用 1)
- 智能体响应用户(调用 2)
- 通过重用已加载的技能节省了 1 次调用
再次 3 次调用 → 总计 6 次
- 路由器是无状态的——每个请求都需要一次 LLM 路由调用
- 第 2 轮:路由器 LLM 调用 (1) → 牛奶智能体调用 buy_coffee (2) → 牛奶智能体响应 (3)
- 可以通过将其包装为有状态智能体中的工具来优化
关键洞察: 有状态模式(交接、技能)在重复请求上节省了 40-50% 的调用。子智能体保持每次请求的成本一致——这种无状态设计提供了强大的上下文隔离,但代价是重复的模型调用。
多领域
用户: “比较 Python、JavaScript 和 Rust 在 Web 开发中的应用”
每个语言智能体/技能包含约 2000 个令牌的文档。所有模式都可以进行并行工具调用。
| 模式 | 模型调用次数 | 总令牌数 | 最适合 |
|---|
| 子智能体 | 5 | ~9K | ✅ |
| 交接 | 7+ | ~14K+ | |
| 技能 | 3 | ~15K | |
| 路由器 | 5 | ~9K | ✅ |
5 次调用,~9K 令牌每个子智能体在隔离环境中工作,仅包含其相关上下文。总计:9K 令牌。 7+ 次调用,~14K+ 令牌交接顺序执行——无法并行研究所有三种语言。不断增长的对话历史增加了开销。总计:~14K+ 令牌。 3 次调用,~15K 令牌加载后,每次后续调用都会处理所有 6K 令牌的技能文档。由于上下文隔离,子智能体总体处理的令牌减少了 67%。总计:15K 令牌。 5 次调用,~9K 令牌路由器使用 LLM 进行路由,然后并行调用智能体。类似于子智能体,但有明确的路由步骤。总计:9K 令牌。
关键洞察: 对于多领域任务,具有并行执行能力的模式(子智能体、路由器)最有效。技能调用次数较少,但由于上下文累积,令牌使用量很高。交接在这里效率低下——它必须顺序执行,无法利用并行工具调用来同时咨询多个领域。
以下是所有三种场景下模式的比较:
| 模式 | 单次请求 | 重复请求 | 多领域 |
|---|
| 子智能体 | 4 次调用 | 8 次调用 (4+4) | 5 次调用,9K 令牌 |
| 交接 | 3 次调用 | 5 次调用 (3+2) | 7+ 次调用,14K+ 令牌 |
| 技能 | 3 次调用 | 5 次调用 (3+2) | 3 次调用,15K 令牌 |
| 路由器 | 3 次调用 | 6 次调用 (3+3) | 5 次调用,9K 令牌 |
选择模式:
将这些文档通过 MCP 连接到 Claude、VSCode 等,以获得实时答案。