如何创建复合评估器 - Docs by LangChain

复合评估器 是一种将多个评估器分数合并为单个分数的方法。当您希望评估应用程序的多个方面并将结果合并为单一结果时，这非常有用。本指南将向您展示如何使用 LangSmith UI 定义复合评估器。

要使用 SDK 以编程方式创建复合评估器，请参阅如何创建复合评估器 (SDK)。

创建复合评估器

您可以在追踪项目（用于在线评估）或数据集（用于离线评估）上创建复合评估器。通过 UI 中的复合评估器，您可以计算多个评估器分数的加权平均值或加权总和，并可配置权重。

LangSmith UI 显示一个名为 ChatOpenAI 的 LLM 调用追踪，包含系统和人类输入，随后是 AI 输出。

LangSmith UI 显示一个名为 ChatOpenAI 的 LLM 调用追踪，包含系统和人类输入，随后是 AI 输出。

1. 导航到追踪项目或数据集

要开始配置复合评估器，请导航到 追踪项目 或 数据集与实验 选项卡，并选择一个项目或数据集。

在追踪项目内：+ 新建 > 评估器 > 复合分数
在数据集内：+ 评估器 > 复合分数

2. 配置复合评估器

为您的评估器命名。
选择一种聚合方法，平均值 或总和。
- 平均值：∑(权重*分数) / ∑(权重)。
- 总和：∑(权重*分数)。
添加您希望包含在复合分数中的反馈键。
为反馈键添加权重。默认情况下，每个反馈键的权重相等。调整权重以增加或减少特定反馈键在最终分数中的重要性。
点击创建以保存评估器。

如果您需要调整复合分数的权重，可以在评估器创建后进行更新。所有配置了该评估器的运行的结果分数都将被更新。

3. 查看复合评估器结果

复合分数作为反馈附加到运行中，类似于来自单个评估器的反馈。查看方式取决于评估运行的位置： 在追踪项目上：

复合分数作为运行上的反馈显示。
筛选运行，查找具有复合分数或复合分数达到特定阈值的运行。
创建图表以可视化复合分数随时间变化的趋势。

在数据集上：

在实验选项卡中查看复合分数。您还可以根据其运行的平均复合分数来筛选和排序实验。
点击进入实验以查看每次运行的复合分数。

如果任何组成评估器未在运行上配置，则该运行的复合分数将不会被计算。

将这些文档连接到 Claude、VSCode 等，通过 MCP 获取实时答案。

在 GitHub 上编辑此页面或提交问题。

如何定义代码评估器

如何定义LLM作为评判者的评估器