设置多轮在线评估器

多轮在线评估器允许您评估人类与代理之间的整个对话——而不仅仅是单次交互。它们衡量线程中所有轮次的端到端交互质量。您可以使用多轮评估来衡量：

语义意图：用户试图做什么。
语义结果：实际发生了什么，任务是否成功。
轨迹：对话如何展开，包括工具调用的轨迹。

运行多轮在线评估会自动将线程中的每个跟踪升级为扩展数据保留。此升级会影响跟踪定价，但确保符合您评估标准（通常是对分析最有价值的）的跟踪得以保留以供调查。

先决条件

您的跟踪项目必须使用线程。
线程中每个跟踪的顶级输入和输出必须包含一个 messages 键，其中包含消息列表。我们支持 LangChain、OpenAI Chat Completions 和 Anthropic Messages 格式的消息。
- 如果每个跟踪的顶级输入和输出仅包含对话中的最新消息，LangSmith 会自动将跨轮次的消息组合成一个线程。
- 如果每个跟踪的顶级输入和输出包含完整的对话历史记录，LangSmith 将直接使用该历史记录。

如果您的跟踪不符合上述格式，线程级评估器将无法工作。您需要更新向 LangSmith 进行跟踪的方式，以确保每个跟踪的顶级输入和输出包含一个 messages 列表。有关更多信息，请参阅故障排除部分。

配置

导航到跟踪页面并选择一个跟踪项目。
点击评估器选项卡，然后点击 + 评估器。在从头开始创建下选择 LLM-as-a-Judge 评估器。在来源下，选择线程。
为您的评估器命名。
应用筛选器或采样率。
使用筛选器或采样来控制评估器成本。例如，仅评估少于 N 轮的线程或对所有线程进行 10% 的采样。
配置空闲时间。
首次配置线程级评估器时，您将定义空闲时间——线程中最后一个跟踪之后的时间量，之后该线程被视为完成并准备进行评估。此值应反映您应用中用户交互的预期长度。它适用于项目中的所有评估器。

首次测试评估器时，请使用较短的空闲时间，以便快速查看结果。验证后，将其增加到与用户交互的预期长度相匹配。

配置您的模型。
选择您要用于评估器的提供商和模型。线程往往很长，因此您应该使用具有更高上下文窗口的模型，以避免达到限制。例如，OpenAI 的 GPT-5.4 mini 或 Gemini 2.5 Flash 是不错的选择，因为它们都具有 1M+ 令牌的上下文窗口。
配置您的 LLM-as-a-judge 提示。
定义您要评估的内容。此提示将用于评估线程。您还可以配置将 messages 列表的哪些部分传递给评估器，以控制其接收的内容：
- 所有消息：发送完整的消息列表。
- 人类和 AI 对：仅发送用户和助手消息（不包括系统消息、工具调用等）。
- 第一个用户和最后一个 AI：仅发送第一个用户消息和最后一个助手回复。
设置您的反馈配置。
为反馈键配置名称、您要收集的反馈格式，并可选择启用反馈推理。

我们不建议对线程级评估器和运行级评估器使用相同的反馈键，因为这可能难以区分两者。

保存您的评估器。

保存后，您的评估器将出现在评估器选项卡中。一旦保存后创建的任何新线程的空闲时间过去，您就可以对其进行测试。

限制

以下是多轮在线评估器的当前限制（可能会更改）。如果您遇到任何这些限制，请联系我们。

运行必须少于一周：当线程变为空闲时，只有过去 7 天内的运行才有资格进行评估。
一次最多评估 500 个线程：如果在五分钟内有超过 500 个线程被标记为空闲，我们将自动对超过 500 个的线程进行采样。
每个工作区最多 10 个多轮在线评估器

故障排除

检查评估器的状态
您可以通过导航到跟踪项目中的评估器选项卡，并为您创建的评估器点击日志按钮来查看其运行历史记录，从而检查评估器上次运行的时间。 检查发送给评估器的数据
通过导航到跟踪项目中的评估器选项卡，点击您创建的评估器，然后点击评估器跟踪选项卡，检查发送给评估器的数据。在此选项卡中，您可以看到传递给 LLM-as-a-judge 评估器的输入。如果您的消息未正确传递，您将在输入中看到空白值。如果您的消息未按预期格式之一进行格式化，就可能发生这种情况。

将这些文档通过 MCP 连接到 Claude、VSCode 等，以获取实时答案。

在 GitHub 上编辑此页面或提交问题。

Tracing setup

Configuration & troubleshooting

Viewing & managing traces

Automations

Feedback & evaluation

Monitoring & alerting

Data type reference

先决条件

配置

限制

故障排除

​先决条件

​配置

​限制

​故障排除

先决条件

配置

限制

故障排除