evaluate() 或 aevaluate() 函数。
基本示例
评估器参数
代码评估器函数必须具有特定的参数名称。它们可以接受以下参数的任意子集:run: Run:应用程序在给定示例上生成的完整 Run 对象。example: Example:完整的数据集 Example,包括示例输入、输出(如果可用)和元数据(如果可用)。inputs: dict:对应于数据集中单个示例的输入字典。outputs: dict:应用程序在给定inputs上生成的输出字典。reference_outputs/referenceOutputs: dict:与示例关联的参考输出字典(如果可用)。
inputs、outputs 和 reference_outputs。run 和 example 仅在您需要应用程序实际输入和输出之外的某些额外跟踪或示例元数据时才有用。
使用 JS/TS 时,这些都应作为单个对象参数的一部分传递。
评估器输出
代码评估器应返回以下类型之一: Python 和 JS/TSdict:形如{"score" | "value": ..., "key": ...}的字典允许您自定义指标类型(“score” 用于数值型,“value” 用于分类型)和指标名称。例如,当您想将整数记录为分类指标时,这很有用。
int | float | bool:这被解释为可以求平均值、排序等的连续指标。函数名用作指标的名称。str:这被解释为分类指标。函数名用作指标的名称。list[dict]:使用单个函数返回多个指标。
附加示例
需要langsmith>=0.2.0
相关内容
- 评估聚合实验结果:定义摘要评估器,用于计算整个实验的指标。
- 运行比较两个实验的评估:定义成对评估器,通过比较两个(或更多)实验来计算指标。
将这些文档通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

