如何比较实验结果

当您正在迭代您的 LLM 应用程序（例如更改模型或提示词）时，您可能希望比较不同实验的结果。 LangSmith 支持一个比较视图，让您可以识别不同实验之间的关键差异、性能下降和改进。

打开比较视图

要访问实验比较视图，请导航到 数据集与实验 页面。
选择一个数据集，这将打开实验标签页。
选择两个或更多实验，然后点击比较。

调整表格显示

您可以在比较视图的右上角切换不同的显示选项。

筛选器

点击图标，可以对比较视图应用筛选器，以缩小特定示例的范围。筛选器的常见示例包括：

包含特定 input / output 的示例。
状态为 success 或 error 的运行。
latency 超过 x 秒的运行。
特定的 metadata、tag 或 feedback。

除了在整个实验视图上应用筛选器外，您还可以在单个列上应用筛选器。选择任何列顶部的图标，以查看该列数据的可用筛选器。

列

点击图标，可以在比较视图中显示或隐藏单个反馈键或指标。

表格视图

在比较视图的右上角选择三种表格视图图标之一：

紧凑：显示每个示例的实验结果预览。
完整：显示每个运行的输入、输出和参考输出的完整文本。如果输出过长无法在表格中显示，您可以点击展开查看完整内容。
差异：显示每个运行的实验输出之间的文本差异。此功能一次仅支持两个实验。更多详情请参阅查看并排差异。

显示类型

有三种内置的实验视图，涵盖多种显示类型：默认、YAML、JSON。

查看性能下降和改进

在比较视图中，红色高亮显示的是相对于您的源实验在任何反馈键上性能下降的运行，而绿色高亮显示的是性能改进的运行。在每个反馈列的顶部，您可以看到有多少运行比您的源实验表现更好或更差。点击每列顶部的性能下降或改进按钮，仅显示在该实验中性能下降或改进的运行。

查看并排差异

当比较两个实验时，对于 JSON 和 YAML 显示样式，您可以开启实验差异模式来比较实验输出。差异模式会高亮显示输出之间的修改，对于结构化输出比较特别有用。

更新源实验和指标

要跟踪实验间的性能下降，您可以：

在比较视图的顶部，将鼠标悬停在实验图标上，然后从下拉菜单中选择 设为源实验。您也可以从此下拉菜单中添加或移除实验。默认情况下，第一个选择的实验被设为源实验。
在反馈列中，您可以为每个反馈键配置分数越高是否越好。此偏好设置将被保存。默认情况下，假定分数越高越好。

展开详情面板

点击任何行，可以为该示例打开所比较实验的详情面板。使用面板右上角的开关在两种模式之间切换：

详情：显示反馈键和分数，以及该示例的指标摘要，还有每个实验的输入、输出、参考输出和属性。
追踪：并排显示每个实验的追踪。

当比较两个以上的实验时，面板一次显示两个实验。使用标题栏切换您正在与之比较的实验。

使用实验元数据作为图表标签

您可以根据实验元数据配置图表的 x 轴标签。从比较视图右上角的图表下拉菜单中选择一个元数据键，以更改 x 轴标签。

将这些文档连接到 Claude、VSCode 等，通过 MCP 获取实时答案。

在 GitHub 上编辑此页面或提交问题。

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

打开比较视图

调整表格显示

筛选器

列

表格视图

显示类型

查看性能下降和改进

查看并排差异

更新源实验和指标

展开详情面板

使用实验元数据作为图表标签

​打开比较视图

​调整表格显示

​筛选器

​列

​表格视图

​显示类型

​查看性能下降和改进

​查看并排差异

​更新源实验和指标

​展开详情面板

​使用实验元数据作为图表标签

打开比较视图

调整表格显示

筛选器

列

表格视图

显示类型

查看性能下降和改进

查看并排差异

更新源实验和指标

展开详情面板

使用实验元数据作为图表标签