要使用 SDK 以编程方式定义代码评估器,请参阅 如何定义代码评估器 (SDK)。
步骤 1. 创建评估器
- 从 LangSmith UI 中的以下页面之一创建评估器:
- 在 Playground 中或从数据集中:选择 + Evaluator 按钮。
- 选择 Add rules,配置您的规则并选择 Apply evaluator。
- 为您的评估器指定一个清晰的名称,描述其衡量的内容(例如,“精确匹配”)。
- 从评估器类型选项中选择 Create code evaluator。
步骤 2. 编写评估器代码
自定义代码评估器限制。允许的库:您可以导入所有标准库函数,以及以下公共包:网络访问:您无法从自定义代码评估器访问互联网。
perform_eval,并且应该:
- 接受
run和example参数。 - 通过
run['inputs']、run['outputs']和example['outputs']访问数据。 - 返回一个字典,其中每个键是一个指标名称,每个值是该指标的分数。每个键代表您想要返回的一条反馈。例如,
{"correctness": 1, "silliness": 0}将为该运行创建两条反馈。
函数签名
示例:精确匹配评估器
示例:基于输入的评估器
步骤 3. 测试并保存
- 在示例数据上测试您的评估器,确保其按预期工作
- 点击 Save 以使评估器可供使用
使用您的代码评估器
创建后,您可以使用您的代码评估器:- 从 Playground 运行评估时
- 作为数据集的一部分,以自动对实验运行评估
相关内容
- LLM 作为评判者评估器 (UI):使用 LLM 评估输出
- 组合评估器:组合多个评估器分数
连接这些文档 到 Claude、VSCode 等,通过 MCP 获取实时答案。

