Skip to main content
LLM 应用可能难以评估,因为它们通常生成对话式文本,且没有单一的正确答案。 本指南将向您展示如何使用 LangSmith UI离线评估定义一个 LLM-as-a-judge 评估器
要在生产跟踪上实时运行评估,请参阅设置在线评估

步骤 1. 创建评估器

  1. LangSmith UI 中,从评估器页面,或从数据集或跟踪项目内的 Evaluators 选项卡,点击 + Evaluator
  2. Add Evaluator 面板中,在 Create from scratch 下选择 LLM-as-a-Judge Evaluator。或者,选择 Create from a template 从一个现成的评估器开始并进行编辑。

评估器模板

评估器模板是设置评估时一个有用的起点。在 Add Evaluator 面板中选择 Create from a template,可以浏览按类别(如安全性、安全性和质量)组织的模板。 您可以配置 LLM-as-a-Judge 评估器:

自定义您的 LLM-as-a-judge 评估器

为您的 LLM-as-a-judge 评估器提示词添加具体指令,并配置输入/输出/参考输出的哪些部分应传递给评估器。

步骤 2. 配置评估器

提示词

创建一个新的提示词,或从提示词中心选择一个现有的提示词。
  • 创建您自己的提示词:内联创建一个自定义提示词。
  • 从提示词中心拉取提示词:使用 Select a prompt 下拉菜单从现有提示词中选择。您无法直接在提示词编辑器中编辑这些提示词,但可以查看提示词及其使用的模式。要进行更改,请在 Playground 中编辑提示词并提交版本,然后在评估器中拉取您的新提示词。

模型

从提供的选项中选择所需的模型。

映射变量

使用变量映射来指示从您的运行或示例传递到评估器提示词的变量。为了辅助变量映射,提供了一个示例(或运行)作为参考。点击提示词中的变量,并使用下拉菜单将其映射到输入、输出或参考输出的相关部分。 要添加提示词变量,请使用双花括号 {{prompt_var}}(如果使用 mustache 格式,这是默认格式)或单花括号 {prompt_var}(如果使用 f-string 格式)键入变量。 您可以根据需要删除变量。例如,如果您正在评估简洁性等指标,通常不需要参考输出,因此您可以删除该变量。

预览

预览提示词将向您展示使用右侧显示的参考运行和数据集示例格式化后的提示词是什么样子。

使用少样本示例改进您的评估器

为了更好地使 LLM-as-a-judge 评估器与人类偏好保持一致,LangSmith 允许您收集评估器分数的人工修正。启用此选项后,修正将作为少样本示例自动插入到您的提示词中。 了解如何设置少样本示例并进行修正

反馈配置

反馈配置是您的 LLM-as-a-judge 评估器将使用的评分标准。可以将其视为评估器评分的依据。分数将作为反馈添加到运行或示例中。为您的评估器定义反馈:
  1. 命名反馈键:这是查看评估结果时显示的名称。名称在实验中应是唯一的。
  2. 添加描述:描述反馈代表什么。
  3. 选择反馈类型
    • 布尔值:真/假反馈。
    • 分类:从预定义类别中选择。
    • 连续:在指定范围内的数值评分。
在底层,反馈配置作为结构化输出添加到 LLM-as-a-judge 提示词中。如果您使用的是中心的现有提示词,则必须在配置评估器使用它之前为提示词添加输出模式。输出模式中的每个顶级键将被视为单独的反馈项。

步骤 3. 保存评估器

配置完成后,保存您的更改。