- 通过编程方式,在代码中指定评估器(详情请参阅如何评估 LLM 应用)
- 通过在 UI 中将评估器绑定到数据集。这将自动在任何新创建的实验上运行评估器,此外还会运行您通过 SDK 设置的任何评估器。当您正在迭代应用程序(目标函数),并且有一套标准评估器希望在所有实验上运行时,这非常有用。
在数据集上配置评估器
- 在 LangSmith UI 中,选择一个数据集。
- 点击 Evaluators(评估器)选项卡。
- 点击 + Evaluator(+ 评估器)以打开 Add Evaluator(添加评估器)面板。
- 选择以下选项之一:
当您为数据集配置评估器时,它只会影响在评估器配置后创建的实验运行。它不会影响在评估器配置之前创建的实验运行的评估。
LLM 作为评判者的评估器
将评估器绑定到数据集的过程与在 Playground 中配置 LLM 作为评判者评估器的过程非常相似。请查看在 Playground 中配置 LLM 作为评判者评估器的说明。自定义代码评估器
将代码评估器绑定到数据集的过程与在线评估中配置代码评估器的过程非常相似。请查看配置代码评估器的说明。 在在线评估中配置代码评估器与将代码评估器绑定到数据集之间的唯一区别在于,自定义代码评估器可以引用作为数据集Example(示例)一部分的输出。
对于绑定到数据集的自定义代码评估器,评估器函数接受两个参数:
- 一个
Run(运行)(参考)。这代表您实验中的新运行。例如,如果您通过 SDK 运行了一个实验,这将包含您正在测试的链或模型的输入/输出。 - 一个
Example(示例)(参考)。这代表您数据集中的参考示例,您正在测试的链或模型使用该示例。Run和Example的inputs(输入)应该相同。如果您的Example有参考outputs(输出),那么您可以使用它来与运行的输出进行比较以进行评分。
后续步骤
将这些文档通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

