如何使用少样本示例改进您的评估器

当您无法通过编程方式评估系统时，使用LLM作为评判者的评估器可能非常有帮助。然而，它们的有效性取决于其质量以及与人类评审反馈的契合程度。LangSmith提供了使用少样本示例来改进LLM作为评判者的评估器与人类偏好对齐的能力。人类修正会通过少样本示例自动插入到您的评估器提示中。少样本示例是一种受少样本提示启发的技术，它通过几个高质量的示例来引导模型的输出。本指南介绍如何将少样本示例设置为LLM作为评判者的评估器的一部分，并将修正应用于反馈分数。

少样本示例的工作原理

少样本示例通过 {{Few-shot examples}} 变量添加到您的评估器提示中
创建带有少样本示例的评估器将自动为您创建一个数据集，一旦您开始进行修正，该数据集将自动填充少样本示例
在运行时，这些示例将被插入到评估器中，作为其输出的指南——这将帮助评估器更好地与人类偏好对齐

配置您的评估器

目前，使用提示中心的LLM作为评判者的评估器不支持少样本示例，并且仅与使用mustache格式的提示兼容。

在启用少样本示例之前，请设置您的LLM作为评判者的评估器。如果您尚未完成此操作，请按照LLM作为评判者的评估器指南中的步骤操作。

1. 配置变量映射

每个少样本示例都根据配置中指定的变量映射进行格式化。少样本示例的变量映射应包含与主提示相同的变量，外加一个 few_shot_explanation 和一个 score 变量，后者的名称应与您的反馈键相同。例如，如果您的主提示包含变量 question 和 response，并且您的评估器输出一个 correctness 分数，那么您的少样本提示应包含变量 question、response、few_shot_explanation 和 correctness。

2. 指定要使用的少样本示例数量

您还可以指定要使用的少样本示例数量。默认值为5。如果您的示例非常长，您可能希望将此数字设置得较低以节省令牌——而如果您的示例通常较短，您可以设置一个较高的数字，以便为您的评估器提供更多可学习的示例。如果您的数据集中的示例数量超过此数字，我们将为您随机选择它们。

进行修正

审核评估器分数

当您开始记录跟踪或运行实验时，您可能会不同意评估器给出的某些分数。当您对这些分数进行修正时，您将开始在修正数据集中看到填充的示例。在进行修正时，请务必附加解释——这些解释将填充到您的评估器提示中，替代 few_shot_explanation 变量。少样本示例的输入将是来自您的链/数据集的输入、输出和参考（如果这是离线评估器）的相关字段。输出将是修正后的评估器分数以及您在留下修正时创建的解释。您可以随意编辑这些内容。以下是修正数据集中少样本示例的示例：

请注意，修正可能需要一两分钟才能填充到您的少样本数据集中。一旦它们在那里，您评估器的未来运行将在提示中包含它们！

查看您的修正数据集

要查看您的修正数据集：

在线评估器：选择您的运行规则并点击 编辑规则
离线评估器：选择您的评估器并点击 编辑评估器

前往 使用少样本示例改进评估器准确性 部分链接的修正数据集。您可以在数据集中查看和更新您的少样本示例。

连接这些文档到Claude、VSCode等，通过MCP获取实时答案。

在GitHub上编辑此页面或提交问题。

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

如何使用少样本示例改进您的评估器

少样本示例的工作原理

配置您的评估器

1. 配置变量映射

2. 指定要使用的少样本示例数量

进行修正

查看您的修正数据集

​少样本示例的工作原理

​配置您的评估器

​1. 配置变量映射

​2. 指定要使用的少样本示例数量

​进行修正

​查看您的修正数据集

少样本示例的工作原理

配置您的评估器

1. 配置变量映射

2. 指定要使用的少样本示例数量

进行修正

查看您的修正数据集