要使用 SDK 以编程方式创建复合评估器,请参阅如何创建复合评估器 (SDK)。
创建复合评估器
您可以在追踪项目(用于在线评估)或数据集(用于离线评估)上创建复合评估器。通过 UI 中的复合评估器,您可以计算多个评估器分数的加权平均值或加权总和,并可配置权重。
1. 导航到追踪项目或数据集
要开始配置复合评估器,请导航到 追踪项目 或 数据集与实验 选项卡,并选择一个项目或数据集。- 在追踪项目内:+ 新建 > 评估器 > 复合分数
- 在数据集内:+ 评估器 > 复合分数
2. 配置复合评估器
- 为您的评估器命名。
- 选择一种聚合方法,平均值 或 总和。
- 平均值:∑(权重*分数) / ∑(权重)。
- 总和:∑(权重*分数)。
- 添加您希望包含在复合分数中的反馈键。
- 为反馈键添加权重。默认情况下,每个反馈键的权重相等。调整权重以增加或减少特定反馈键在最终分数中的重要性。
- 点击 创建 以保存评估器。
3. 查看复合评估器结果
复合分数作为 反馈 附加到运行中,类似于来自单个评估器的反馈。查看方式取决于评估运行的位置: 在追踪项目上: 在数据集上:- 在实验选项卡中查看复合分数。您还可以根据其运行的平均复合分数来筛选和排序实验。
- 点击进入实验以查看每次运行的复合分数。
如果任何组成评估器未在运行上配置,则该运行的复合分数将不会被计算。
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时答案。


