Skip to main content
推荐阅读在深入本内容之前,阅读以下内容可能有所帮助:
在线评估为您的生产跟踪提供实时反馈。这对于持续监控应用程序性能非常有用——可以识别问题、衡量改进,并确保随时间推移保持一致的质量。 复合评估器是一种将多个评估器分数合并为单个分数的方法。当您想评估应用程序的多个方面并将结果合并为单一结果时,这非常有用。
当在线评估器在跟踪中的任何运行上运行时,跟踪将自动升级为扩展数据保留。此升级会影响跟踪定价,但确保符合您评估标准(通常是对分析最有价值的)的跟踪被保留以供调查。

查看在线评估器

前往跟踪项目选项卡并选择一个跟踪项目。要查看该项目的现有在线评估器,请点击评估器选项卡。 查看在线评估器

配置复合在线评估器

您可以在跟踪项目上为在线评估创建复合评估器。通过UI中的复合评估器,您可以计算多个评估器分数的加权平均值或加权和,并可配置权重。
LangSmith UI 显示一个名为 ChatOpenAI 的 LLM 调用跟踪,包含系统和人类输入,随后是 AI 输出。

1. 导航到跟踪项目

要开始配置复合评估器,请导航到跟踪页面并选择一个跟踪项目。 从跟踪项目视图中,导航到评估器选项卡。点击 + 评估器 以打开添加评估器面板。在从头开始创建下点击复合分数

2. 配置复合评估器

  1. 为您的评估器命名。
  2. 选择聚合方法,平均值总和
    • 平均值:∑(权重*分数) / ∑(权重)。
    • 总和:∑(权重*分数)。
  3. 添加您希望包含在复合分数中的反馈键。
  4. 为反馈键添加权重。默认情况下,每个反馈键的权重相等。调整权重以增加或减少特定反馈键在最终分数中的重要性。
  5. 点击创建以保存评估器。
如果您需要调整复合分数的权重,可以在评估器创建后进行更新。所有配置了该评估器的运行的结果分数都将被更新。

3. 查看复合评估器结果

复合分数作为反馈附加到运行,类似于来自单个评估器的反馈。 在跟踪项目上
  • 复合分数作为运行上的反馈显示。
  • 筛选具有复合分数的运行,或复合分数满足特定阈值的运行。
  • 创建图表以可视化复合分数随时间变化的趋势。
如果任何组成评估器未在运行上配置,则不会为该运行计算复合分数。