如何进行重复评估

在实验中配置重复次数

在 evaluate / aevaluate 函数（Python、TypeScript）中添加可选参数 num_repetitions，以指定对数据集中每个示例进行评估的次数。例如，若数据集中有5个示例且设置 num_repetitions=5，则每个示例将运行5次，总计25次运行。

from langsmith import evaluate

results = evaluate(
    lambda inputs: label_text(inputs["text"]),
    data=dataset_name,
    evaluators=[correct_label],
    experiment_prefix="Toxic Queries",
    num_repetitions=3,
)

import { evaluate } from "langsmith/evaluation";

await evaluate((inputs) => labelText(inputs["input"]), {
  data: datasetName,
  evaluators: [correctLabel],
  experimentPrefix: "Toxic Queries",
  numRepetitions: 3,
});

查看重复评估实验的结果

如果您使用了重复评估运行实验，输出结果列中将显示箭头，以便您在表格中查看输出。要查看重复评估中的每次运行，请将鼠标悬停在输出单元格上并点击展开视图。当您运行重复评估实验时，LangSmith会在表格中显示每个反馈分数的平均值。点击反馈分数可查看单次运行的反馈分数，或查看重复评估间的标准差。

连接这些文档到Claude、VSCode等工具，通过MCP获取实时答案。

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

在实验中配置重复次数

查看重复评估实验的结果

​在实验中配置重复次数

​查看重复评估实验的结果

在实验中配置重复次数

查看重复评估实验的结果