使用人类反馈改进LLM作为评判者的评估器

在开始阅读本页之前，以下内容可能有所帮助：

可靠的LLM作为评判者的评估器对于就您的AI应用（例如，提示词、模型、架构变更）做出明智决策至关重要。正确地定义评估器提示词可能很困难，但它直接影响您评估结果的可信度。本指南描述了如何使用人类反馈来对齐您的LLM作为评判者的评估器，以提高评估器的质量并帮助您构建可靠的AI应用。

工作原理

LangSmith的对齐评估器功能包含一系列步骤，帮助您将LLM作为评判者的评估器与人类专家反馈对齐。您可以使用此功能来对齐在数据集上运行的评估器，用于离线评估或在线评估。无论哪种情况，步骤都相似：

选择实验或运行，其中包含来自您应用的输出。
将选定的实验或运行添加到标注队列，人类专家可以在其中对数据进行标注。
针对标注的示例测试您的LLM作为评判者的评估器提示词。检查评估器结果与标注数据不一致的情况。这表明您的评估器提示词需要改进的领域。
精炼并重复以提高评估器对齐度。更新您的LLM作为评判者的评估器提示词并再次测试。

先决条件

在开始本指南的离线评估或在线评估之前，您需要以下内容：

离线评估

一个包含至少一个实验的数据集。
您需要通过SDK或UI上传或创建数据集，并通过SDK或Playground运行实验。

在线评估

一个已经向LangSmith发送跟踪信息的应用程序。
使用其中一种跟踪集成进行配置以开始。

入门指南

您可以在数据集和跟踪项目中为新的和现有的评估器进入对齐流程。

	数据集评估器	跟踪项目评估器
从头创建对齐的评估器	1. 数据集与实验并选择您的数据集 2. 点击 + 评估器 > 从标注数据创建 3. 输入一个描述性的反馈键名称（例如 `correctness`、`hallucination`）	1. 项目并选择您的项目 2. 点击 + 新建 > 评估器 > 从标注数据创建 3. 输入一个描述性的反馈键名称（例如 `correctness`、`hallucination`）
对齐现有评估器	1. 数据集与实验 > 选择您的数据集 > 评估器选项卡 2. 在使用实验数据对齐评估器框中，点击选择实验	1. 项目 > 选择您的项目 > 评估器选项卡 2. 在使用实验数据对齐评估器框中，点击选择实验

1. 选择实验或运行

选择一个或多个实验（或运行）发送进行人工标注。这将把运行添加到标注队列。

要将任何新的实验/运行添加到现有的标注队列，请转到评估器选项卡，选择您正在对齐的评估器，然后点击添加到队列。

数据集应能代表您在生产环境中预期看到的输入和输出。虽然您不需要涵盖每一种可能的场景，但重要的是要包含预期用例范围内的示例。例如，如果您正在构建一个回答关于棒球、篮球和足球问题的体育机器人，您的数据集应至少包含来自每项运动的一个标注示例。

2. 标注示例

通过添加反馈分数来标注标注队列中的示例。标注完一个示例后，点击添加到参考数据集。

如果您的实验中有大量示例，您不需要标注每个示例就可以开始。我们建议从至少20个示例开始，您随时可以稍后添加更多。我们建议您标注的示例具有多样性（在0和1标签之间保持平衡），以确保您正在构建一个全面的评估器提示词。

3. 针对标注的示例测试您的评估器提示词

一旦您有了标注的示例，下一步就是迭代您的评估器提示词，使其尽可能好地模仿标注数据。此迭代在评估器Playground中完成。要进入评估器Playground：点击评估器队列右上角的查看评估器按钮。这将带您进入您正在对齐的评估器的详细信息页面。点击评估器Playground按钮以访问Playground。

在评估器Playground中，您可以创建或编辑您的评估器提示词，然后点击开始对齐，在您在步骤2中创建的标注示例集上运行它。运行评估器后，您将看到其生成的分数与您的人工标签相比如何。对齐分数是评估器判断与人类专家判断一致的示例百分比。

4. 重复以提高评估器对齐度

通过更新提示词并再次测试来迭代，以提高评估器对齐度。

对评估器提示词的更新默认不会保存。我们建议您定期保存评估器提示词，尤其是在看到对齐分数提高之后。当您迭代提示词时，评估器Playground将显示您评估器提示词最近保存版本的对齐分数以供比较。

提高评估器的对齐分数并非一门精确的科学，但有一些策略有助于提高对齐分数。

提高评估器对齐度的技巧

1. 调查不一致的示例 深入研究不一致的示例，并尝试将它们归类为常见的失败模式，这是提高评估器对齐度的一个很好的第一步。一旦您识别出常见的失败模式，请在评估器提示词中添加说明，以便LLM了解它们。例如，如果您注意到它不理解特定的缩写，您可以解释“MFA代表‘多因素认证’”。或者，如果它对评估器上下文中什么是好/坏感到困惑，您可以告诉它“一个好的回复总是包含至少3个潜在的预订酒店”。 2. 检查LLM分数背后的推理 要理解LLM为何对某个示例给出那样的评分，您可以为LLM作为评判者的评估器启用推理功能。推理有助于理解LLM的思维过程，并可以帮助您识别常见的失败模式，以便将其纳入评估器提示词。为了在评估器Playground中查看推理，请将鼠标悬停在LLM分数上。

这将在评估器Playground中显示LLM分数背后的推理。 3. 添加更多标注示例并验证性能 为避免过拟合标注的示例，重要的是添加更多标注示例并测试性能，特别是如果您一开始只有少量示例。

视频指南

通过MCP将这些文档连接到Claude、VSCode等，以获取实时答案。

在GitHub上编辑此页面或提交问题。

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

使用人类反馈改进LLM作为评判者的评估器

工作原理

先决条件

离线评估

在线评估

入门指南

1. 选择实验或运行

2. 标注示例

3. 针对标注的示例测试您的评估器提示词

4. 重复以提高评估器对齐度

提高评估器对齐度的技巧

视频指南

​工作原理

​先决条件

​离线评估

​在线评估

​入门指南

​1. 选择实验或运行

​2. 标注示例

​3. 针对标注的示例测试您的评估器提示词

​4. 重复以提高评估器对齐度

​提高评估器对齐度的技巧

​视频指南

工作原理

先决条件

离线评估

在线评估

入门指南

1. 选择实验或运行

2. 标注示例

3. 针对标注的示例测试您的评估器提示词

4. 重复以提高评估器对齐度

提高评估器对齐度的技巧

视频指南