当在线评估器在追踪中的任何运行上运行时,该追踪将自动升级为扩展数据保留。此升级会影响追踪定价,但确保符合您评估标准(通常是对分析最有价值的)的追踪被保留以供调查。
查看在线评估器
在 LangSmith UI 中,前往 Tracing Projects 选项卡并选择一个追踪项目。要查看该项目的现有在线评估器,请点击 Evaluators 选项卡。
添加在线评估器
- 在 LangSmith UI 中,导航到 Tracing 页面并选择一个追踪项目。
- 点击 Evaluators 选项卡。
- 点击 + Evaluator 以打开 Add Evaluator 面板。
- 选择以下选项之一:
- 从头创建:选择 LLM-as-a-Judge Evaluator。
- 附加现有评估器:选择您工作区中已有的评估器以重复使用。
- 从模板创建:从现成的评估器开始。
- 为您的评估器命名。
为触发评估器的运行应用筛选器
您可以为触发评估器的运行应用筛选器。您可能希望根据以下条件应用评估器:- 用户留下反馈表示响应不满意的运行。
- 调用特定工具调用的运行。有关更多信息,请参阅筛选工具调用。
- 匹配特定元数据的运行(例如,如果您记录带有
plan_type的追踪,并且只想对来自企业客户的追踪运行评估)。有关更多信息,请参阅向追踪添加元数据。
配置采样率
配置采样率以控制触发自动化操作的筛选运行的百分比。例如,为了控制成本,您可能希望设置筛选器,仅对 10% 的追踪应用评估器。为此,您需要将采样率设置为 0.1。将规则应用于过去的运行
通过切换 Apply to past runs 并输入“Backfill from”日期,将规则应用于过去的运行。这仅在创建规则时可行。回填作为后台作业处理,因此您不会立即看到结果。
- 添加评估器名称。
- 可选地筛选您希望应用评估器的运行或配置采样率。
- 选择 Apply Evaluator。
配置 LLM-as-a-judge 评估器
有关更多信息,请查看 LLM-as-a-judge 评估器。将多模态内容映射到评估器
如果您的追踪包含图像、音频或文档等多模态内容,您可以在评估器提示中包含此内容。有两种方法:- 使用来自追踪的 base64 编码内容:如果您的应用程序在追踪中将多模态内容记录为 base64 编码数据(例如,在运行的输入或输出中),您可以使用模板变量在评估器提示中直接引用此内容。评估器将从追踪中提取 base64 数据并将其传递给 LLM。
-
使用来自追踪的附件:类似于带附件的离线评估,您可以在在线评估中使用来自追踪的附件。由于您的追踪已包含通过 SDK 记录的附件,您可以直接在评估器中引用它们。

- 从数据集页面选择 + Evaluator。
- 在 Template variables 编辑器中,添加要包含的附件变量:
- 如果您想包含特定附件,可以使用建议的变量名,例如
{{attachment.file_name}},这将映射附件列表中文件名为file_name的文件并将其传递给评估器。 - 如果您想包含所有附件,请使用
{{attachments}}` 变量。
- 如果您想包含特定附件,可以使用建议的变量名,例如
- 验证图像描述是否与追踪中的实际图像匹配。
- 检查转录是否准确反映音频输入。
- 验证从文档中提取的文本是否正确。
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时答案。


