测试 - Docs by LangChain

Agentic 应用程序让 LLM 自行决定下一步以解决问题。这种灵活性很强大，但模型的黑盒性质使得难以预测代理某一部分的调整将如何影响整体。要构建生产就绪的代理，彻底的测试至关重要。测试代理有几种方法：

单元测试 使用内存模拟隔离地测试代理的小型、确定性部分，以便快速、确定性地断言确切行为。
集成测试 使用真实网络调用测试代理，以确认组件协同工作、凭证和模式对齐，并且延迟可接受。
评估使用评估器评估代理的执行轨迹，通过确定性匹配或 LLM 判断器。

Agentic 应用程序往往更依赖集成测试，因为它们将多个组件链接在一起，并且必须处理由于 LLM 的非确定性性质而导致的不稳定性。

单元测试

模拟聊天模型并使用内存持久化来测试代理逻辑，无需 API 调用。

集成测试

使用真实 LLM API 测试您的代理。组织测试、管理密钥、处理不稳定性并控制成本。

评估

使用确定性匹配或 LLM 作为判断器的评估器评估代理轨迹。

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等以获取实时答案。

LangSmith Studio