打开比较视图
- 要访问实验比较视图,请导航到 数据集与实验 页面。
- 选择一个数据集,这将打开 实验 标签页。
- 选择两个或更多实验,然后点击 比较。

调整表格显示
您可以在比较视图的右上角切换不同的显示选项。
筛选器
点击 图标,可以对比较视图应用筛选器,以缩小特定示例的范围。筛选器的常见示例包括:- 包含特定
input/output的示例。 - 状态为
success或error的运行。 latency超过 x 秒的运行。- 特定的
metadata、tag或feedback。
列
点击 图标,可以在比较视图中显示或隐藏单个反馈键或指标。表格视图
在比较视图的右上角选择三种表格视图图标之一:- 紧凑:显示每个示例的实验结果预览。
- 完整:显示每个运行的输入、输出和参考输出的完整文本。如果输出过长无法在表格中显示,您可以点击 展开 查看完整内容。
- 差异:显示每个运行的实验输出之间的文本差异。此功能一次仅支持两个实验。更多详情请参阅查看并排差异。
显示类型
有三种内置的实验视图,涵盖多种显示类型:默认、YAML、JSON。查看性能下降和改进
在比较视图中,红色高亮显示的是相对于您的源实验在任何反馈键上性能下降的运行,而绿色高亮显示的是性能改进的运行。在每个反馈列的顶部,您可以看到有多少运行比您的源实验表现更好或更差。 点击每列顶部的性能下降或改进按钮,仅显示在该实验中性能下降或改进的运行。
查看并排差异
当比较两个实验时,对于 JSON 和 YAML 显示样式,您可以开启实验差异模式来比较实验输出。差异模式会高亮显示输出之间的修改,对于结构化输出比较特别有用。
更新源实验和指标
要跟踪实验间的性能下降,您可以:-
在比较视图的顶部,将鼠标悬停在实验图标上,然后从下拉菜单中选择 设为源实验。您也可以从此下拉菜单中添加或移除实验。默认情况下,第一个选择的实验被设为源实验。

-
在 反馈 列中,您可以为每个反馈键配置分数越高是否越好。此偏好设置将被保存。默认情况下,假定分数越高越好。

展开详情面板
点击任何行,可以为该示例打开所比较实验的详情面板。 使用面板右上角的开关在两种模式之间切换:-
详情:显示反馈键和分数,以及该示例的指标摘要,还有每个实验的输入、输出、参考输出和属性。

-
追踪:并排显示每个实验的追踪。

使用实验元数据作为图表标签
您可以根据实验元数据配置图表的 x 轴标签。 从比较视图右上角的 图表 下拉菜单中选择一个元数据键,以更改 x 轴标签。
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时答案。










