- 单元测试 使用内存模拟隔离地测试代理的小型、确定性部分,以便快速、确定性地断言确切行为。
- 集成测试 使用真实网络调用测试代理,以确认组件协同工作、凭证和模式对齐,并且延迟可接受。
- 评估 使用评估器评估代理的执行轨迹,通过确定性匹配或 LLM 判断器。
单元测试
模拟聊天模型并使用内存持久化来测试代理逻辑,无需 API 调用。
集成测试
使用真实 LLM API 测试您的代理。组织测试、管理密钥、处理不稳定性并控制成本。
评估
使用确定性匹配或 LLM 作为判断器的评估器评估代理轨迹。
通过 MCP 将这些文档连接到 Claude、VSCode 等 以获取实时答案。

