集成测试验证您的智能体是否能正确使用模型 API 和外部服务。与使用伪造和模拟的单元测试不同,集成测试会进行实际的网络调用,以确认组件协同工作、凭证有效且延迟可接受。
由于 LLM 响应是非确定性的,集成测试需要不同于传统软件测试的策略。本指南介绍如何为您的智能体组织、编写和运行集成测试。有关为 LangChain 本身贡献时的通用测试基础设施,请参阅贡献代码。
分离单元测试和集成测试
集成测试速度较慢且需要 API 凭证,因此应与单元测试分开。这样,您可以在每次更改时运行快速的单元测试,并将集成测试保留用于 CI 或部署前检查。
使用文件命名约定来分离集成测试。将集成测试文件命名为 *.int.test.ts,并配置 vitest 以在默认运行中排除它们:
import { configDefaults, defineConfig } from "vitest/config";
export default defineConfig((env) => {
if (env.mode === "int") {
return {
test: {
testTimeout: 100_000,
include: ["**/*.int.test.ts"],
setupFiles: ["dotenv/config"],
},
};
}
return {
test: {
testTimeout: 30_000,
exclude: ["**/*.int.test.ts", ...configDefaults.exclude],
},
};
});
在 package.json 中添加脚本:
{
"scripts": {
"test": "vitest",
"test:integration": "vitest --mode int"
}
}
显式运行集成测试:
管理 API 密钥
集成测试需要真实的 API 凭证。从环境变量加载它们,以便密钥不会进入源代码控制。
将 dotenv/config 添加为 vitest 设置文件,以便从 .env 自动加载环境变量:
export default defineConfig({
test: {
setupFiles: ["dotenv/config"],
},
});
当密钥缺失时跳过测试:
import { test } from "vitest";
test.skipIf(!process.env.OPENAI_API_KEY)(
"agent responds with tool call",
async () => {
// ...
}
);
将 .env 添加到您的 .gitignore 以避免提交凭证。在 CI 中,通过您的提供商的秘密管理(例如 GitHub Actions secrets)注入秘密。
断言结构而非内容
LLM 响应在不同运行之间会变化。不要断言确切的输出字符串,而是验证响应的结构属性:消息类型、工具调用名称、参数形状和消息数量。
test("agent calls weather tool", async () => {
const agent = createAgent({ model: "claude-sonnet-4-6", tools: [getWeather] });
const result = await agent.invoke({
messages: [new HumanMessage("What's the weather in SF?")]
});
const aiMsg = result.messages.find(
(m) => AIMessage.isInstance(m) && m.tool_calls?.length
);
expect(aiMsg).toContainToolCall({ name: "get_weather" });
expect(result.messages.at(-1)).toBeAIMessage();
});
此示例使用自定义测试匹配器。有关设置和完整匹配器参考,请参阅以下部分。
对于更严格的轨迹断言,请使用 AgentEvals 评估器,它支持模糊匹配模式,如 unordered 和 superset。
使用自定义测试匹配器
langchain 提供自定义 vitest 匹配器,使结构断言更易读,并在失败时生成清晰的错误消息。在设置文件中注册一次,它们就会在每次 expect() 调用中可用。
添加一个 vitest 设置文件,使用 LangChain 匹配器扩展 expect:
import { langchainMatchers } from "@langchain/core/testing";
expect.extend(langchainMatchers);
在 vitest 配置中引用它:
export default defineConfig({
test: {
setupFiles: ["vitest.setup.ts"],
},
});
TypeScript 类型会自动包含,因此无需额外配置即可实现自动完成。
检查消息类型
每个消息类都有一个对应的匹配器:toBeHumanMessage()、toBeAIMessage()、toBeSystemMessage() 和 toBeToolMessage()。不带参数调用以仅检查类型,或传递字符串以同时匹配内容:
const response = await agent.invoke({
messages: [new HumanMessage("What's the weather?")]
});
const lastMessage = response.messages.at(-1);
expect(lastMessage).toBeAIMessage();
expect(lastMessage).toBeAIMessage("It's 72°F and sunny.");
传递对象以匹配特定字段:
expect(lastMessage).toBeAIMessage({ name: "weather-bot" });
expect(toolMsg).toBeToolMessage({ tool_call_id: "call_1" });
断言工具调用
三个匹配器涵盖对 AIMessage 的工具调用断言:
const response = await agent.invoke({
messages: [new HumanMessage("Weather in SF and NYC?")]
});
const aiMsg = response.messages.find(
(m) => AIMessage.isInstance(m) && m.tool_calls?.length
);
// 检查特定工具调用是否存在(顺序无关)
expect(aiMsg).toHaveToolCalls([
{ name: "get_weather", args: { city: "San Francisco" } },
{ name: "get_weather", args: { city: "New York" } },
]);
// 仅检查数量
expect(aiMsg).toHaveToolCallCount(2);
// 检查至少一个工具调用匹配(支持 .not)
expect(aiMsg).toContainToolCall({ name: "get_weather" });
expect(aiMsg).not.toContainToolCall({ name: "send_email" });
断言工具消息
toHaveToolMessages() 获取完整的消息数组,并按顺序检查其中的 ToolMessage 实例:
expect(response.messages).toHaveToolMessages([
{ content: "72°F and sunny in San Francisco" },
{ content: "68°F and cloudy in New York" },
]);
断言中断和结构化响应
toHaveBeenInterrupted() 检查 LangGraph 中断 结果中是否存在 __interrupt__ 字段。传递值以匹配中断有效负载:
const result = await graph.invoke(input);
expect(result).toHaveBeenInterrupted();
expect(result).toHaveBeenInterrupted("confirm_action");
toHaveStructuredResponse() 检查结果中是否存在 structuredResponse 字段。传递对象以匹配特定字段:
expect(result).toHaveStructuredResponse();
expect(result).toHaveStructuredResponse({ name: "Alice", age: 30 });
匹配器参考
| 匹配器 | 描述 |
|---|
toBeHumanMessage(expected?) | 检查值是否为 HumanMessage。可选匹配内容(字符串)或字段(对象)。 |
toBeAIMessage(expected?) | 检查值是否为 AIMessage。可选匹配内容或字段。 |
toBeSystemMessage(expected?) | 检查值是否为 SystemMessage。可选匹配内容或字段。 |
toBeToolMessage(expected?) | 检查值是否为 ToolMessage。可选匹配内容或字段,如 tool_call_id。 |
toHaveToolCalls(expected) | 检查 AIMessage 是否具有完全给定的工具调用(顺序无关)。 |
toHaveToolCallCount(n) | 检查 AIMessage 是否具有恰好 n 个工具调用。 |
toContainToolCall(expected) | 检查 AIMessage 是否包含至少一个匹配的工具调用。支持 .not。 |
toHaveToolMessages(expected) | 检查消息数组是否包含给定的 ToolMessage 实例,并按顺序。 |
toHaveBeenInterrupted(value?) | 检查结果是否具有 __interrupt__。可选匹配中断值。 |
toHaveStructuredResponse(expected?) | 检查结果是否具有 structuredResponse。可选匹配特定字段。 |
降低成本和延迟
调用 LLM API 的集成测试会产生真实成本。一些实践有助于保持测试套件快速且经济:
- 使用更小的模型:对于仅需验证工具调用和响应结构的测试,使用
gemini-3.1-flash-lite-preview 或等效模型。
- 设置
maxTokens:限制响应长度以避免长而昂贵的补全。
- 限制测试范围:每个测试仅测试一种行为。避免在单次测试足以满足需求时,使用链式多个 LLM 调用的端到端场景。
- 选择性运行:使用上述的测试分离,仅在 CI 或部署前运行集成测试,而不是在每次文件保存时运行。
const agent = createAgent({
model: "gemini-3.1-flash-lite-preview",
tools: [getWeather],
modelArgs: { maxTokens: 256 },
});
后续步骤
在 Evals 中了解如何使用确定性匹配或 LLM 作为裁判评估器来评估智能体轨迹。