设置 LLM-as-a-judge 在线评估器

在线评估为您的生产环境追踪提供实时反馈。这对于持续监控应用程序性能非常有用——可以识别问题、衡量改进，并确保长期保持一致的质量。 LLM-as-a-judge 评估器使用 LLM 来评估追踪，作为可扩展的、替代人类判断的方案。本指南涵盖评估单次运行的运行级别评估器。有关评估整个对话线程的内容，请参阅多轮在线评估器。

当在线评估器在追踪中的任何运行上运行时，该追踪将自动升级为扩展数据保留。此升级会影响追踪定价，但确保符合您评估标准（通常是对分析最有价值的）的追踪被保留以供调查。

查看在线评估器

在 LangSmith UI 中，前往 Tracing Projects 选项卡并选择一个追踪项目。要查看该项目的现有在线评估器，请点击 Evaluators 选项卡。

添加在线评估器

在 LangSmith UI 中，导航到 Tracing 页面并选择一个追踪项目。
点击 Evaluators 选项卡。
点击 + Evaluator 以打开 Add Evaluator 面板。
选择以下选项之一：
- 从头创建：选择 LLM-as-a-Judge Evaluator。
- 附加现有评估器：选择您工作区中已有的评估器以重复使用。
- 从模板创建：从现成的评估器开始。
为您的评估器命名。

为触发评估器的运行应用筛选器

您可以为触发评估器的运行应用筛选器。您可能希望根据以下条件应用评估器：

用户留下反馈表示响应不满意的运行。
调用特定工具调用的运行。有关更多信息，请参阅筛选工具调用。
匹配特定元数据的运行（例如，如果您记录带有 plan_type 的追踪，并且只想对来自企业客户的追踪运行评估）。有关更多信息，请参阅向追踪添加元数据。

评估器上的筛选器的工作方式与在项目中筛选追踪时相同。

在为评估器创建筛选器时，检查运行通常很有帮助。打开评估器配置面板后，您可以检查运行并对其应用筛选器。您对运行表应用的任何筛选器都会自动反映在评估器的筛选器中。

如果您在此项目上还设置了 webhook 自动化规则，并且希望 webhook 载荷包含此评估器的分数，请向 webhook 规则添加反馈筛选器，而不是依赖规则排序。例如，筛选 has(feedback_key, "answer_usefulness")，以便 webhook 仅在分数存在后才触发。有关详细信息，请参阅确保评估在 webhook 触发前完成。

配置采样率

配置采样率以控制触发自动化操作的筛选运行的百分比。例如，为了控制成本，您可能希望设置筛选器，仅对 10% 的追踪应用评估器。为此，您需要将采样率设置为 0.1。

将规则应用于过去的运行

通过切换 Apply to past runs 并输入“Backfill from”日期，将规则应用于过去的运行。这仅在创建规则时可行。

回填作为后台作业处理，因此您不会立即看到结果。

为了跟踪回填进度，您可以通过前往追踪项目中的 Evaluators 选项卡并点击您创建的评估器的 Logs 按钮来查看评估器的日志。在线评估器日志类似于自动化规则日志。

添加评估器名称。
可选地筛选您希望应用评估器的运行或配置采样率。
选择 Apply Evaluator。

配置 LLM-as-a-judge 评估器

有关更多信息，请查看 LLM-as-a-judge 评估器。

将多模态内容映射到评估器

如果您的追踪包含图像、音频或文档等多模态内容，您可以在评估器提示中包含此内容。有两种方法：

使用来自追踪的 base64 编码内容：如果您的应用程序在追踪中将多模态内容记录为 base64 编码数据（例如，在运行的输入或输出中），您可以使用模板变量在评估器提示中直接引用此内容。评估器将从追踪中提取 base64 数据并将其传递给 LLM。
使用来自追踪的附件：类似于带附件的离线评估，您可以在在线评估中使用来自追踪的附件。由于您的追踪已包含通过 SDK 记录的附件，您可以直接在评估器中引用它们。
1. 从数据集页面选择 + Evaluator。
2. 在 Template variables 编辑器中，添加要包含的附件变量：
  - 如果您想包含特定附件，可以使用建议的变量名，例如 {{attachment.file_name}}，这将映射附件列表中文件名为 file_name 的文件并将其传递给评估器。
  - 如果您想包含所有附件，请使用 {{attachments}}` 变量。

然后，评估器可以在评估追踪时访问这些附件。这对于需要以下功能的评估器很有用：

验证图像描述是否与追踪中的实际图像匹配。
检查转录是否准确反映音频输入。
验证从文档中提取的文本是否正确。

将这些文档连接到 Claude、VSCode 等，通过 MCP 获取实时答案。

在 GitHub 上编辑此页面或提交问题。

Tracing setup

Configuration & troubleshooting

Viewing & managing traces

Automations

Feedback & evaluation

Monitoring & alerting

Data type reference

设置 LLM-as-a-judge 在线评估器

查看在线评估器

添加在线评估器

为触发评估器的运行应用筛选器

配置采样率

将规则应用于过去的运行

配置 LLM-as-a-judge 评估器

将多模态内容映射到评估器

​查看在线评估器

​添加在线评估器

​为触发评估器的运行应用筛选器

​配置采样率

​将规则应用于过去的运行

​配置 LLM-as-a-judge 评估器

​将多模态内容映射到评估器

查看在线评估器

添加在线评估器

为触发评估器的运行应用筛选器

配置采样率

将规则应用于过去的运行

配置 LLM-as-a-judge 评估器

将多模态内容映射到评估器