分析实验

本页描述了在 LangSmith 中处理实验的一些核心任务：

分析单个实验：查看和解释实验结果，自定义列，筛选数据，并比较运行。
在实验标签视图中设置基线：为一个你希望超越的数据集设置基线。
在实验标签视图中按模型、提示和工具筛选与分组：使用模型、提示和工具列在实验标签视图中筛选和分组实验。
将实验结果下载为 CSV：导出你的实验数据以供外部分析和共享。
重命名实验：在 Playground 和实验视图中更新实验名称。

分析单个实验

运行实验后，你可以使用 LangSmith 的实验视图来分析结果，并从实验性能中得出见解。

打开实验视图

要打开实验视图，

从 数据集与实验 页面选择相关的数据集，这将打开实验标签视图。
点击你想要查看的实验行。

查看实验结果

自定义列

默认情况下，实验视图显示数据集中每个示例的输入、输出和参考输出，来自评估的反馈分数，以及实验指标，如成本、令牌数、延迟和状态。你可以通过点击视图右上角的列图标来自定义列，以便更轻松地解释实验结果：

将输入、输出和参考输出中的字段拆分到各自的列中。如果你有很长的输入/输出/参考输出，并且希望突出显示重要字段，这尤其有用。
隐藏和重新排序列，以创建用于分析的专注视图。
控制反馈分数的小数精度。默认情况下，LangSmith 显示的数值反馈分数小数精度为 2，但你可以自定义此设置，最多可达 6 位小数。
设置热力图阈值，为实验中的数值反馈分数设置高、中、低阈值，这会影响分数标签渲染为红色或绿色的阈值：

你可以为整个数据集设置默认配置，或者仅为你自己临时保存设置。

排序和筛选

要按反馈分数对行进行排序，请点击列标题中的 排序依据 图标。

要筛选行，请点击列标题中的图标并配置你的筛选设置。

表格视图

在实验视图的右上角选择三种表格视图图标之一：

紧凑：将每次运行显示为单行，以便快速比较分数。
完整：显示每次运行的完整输出。
差异：显示每次运行的参考输出与输出之间的文本差异。

查看跟踪

点击实验视图中的任何行以打开详细信息面板，该面板显示该运行的跟踪以及反馈、输入、输出和属性。

要查看整个跟踪项目，请点击实验视图右上角的 查看项目 图标。

查看评估器运行

通过将鼠标悬停在评估器分数上，你可以查看有关该评估器运行的更多详细信息。对于 LLM 作为评判的评估器，点击来源链接可查看使用的提示，或点击 评估器跟踪 在新的浏览器标签页中打开跟踪。对于具有重复的实验，点击聚合平均分数可查看所有单独运行的链接。

按元数据分组结果

你可以向示例添加元数据以对其进行分类和组织。例如，如果你正在评估问答数据集的事实准确性，元数据可能包括每个问题所属的学科领域。元数据可以通过 UI 或 SDK 添加。要按元数据分析结果，请使用实验视图右上角的 分组依据 图标，并选择所需的元数据键。这将显示每个元数据组的平均反馈分数、延迟、总令牌数和成本。

你只能在 2025 年 2 月 20 日之后创建的实验上按示例元数据进行分组。在此日期之前的任何实验仍然可以按元数据分组，但前提是元数据位于实验跟踪本身上。

重复

如果你使用重复运行了实验，请点击任何行以打开详细信息面板。重复摘要 显示指标表、所有反馈分数，并允许你切换输出或查看带有跟踪的各个重复。

与另一个实验比较

在实验视图的右上角，你可以选择另一个实验进行比较。这将打开一个比较视图，你可以在其中查看两个实验的比较情况。要了解有关比较视图的更多信息，请参阅如何比较实验结果。

在实验标签视图中设置基线

虽然你可能运行数十个测试，但通常有一个你试图超越的特定基准。设置基线可以将你的结果锚定到这个参考点，从而让你在拥挤的实验列表中识别改进或退步。通过指定基线，你可以：

突出显示参考：明确标记你表现最佳的运行，使其在实验标签视图的顶部保持可见，以便你进行迭代。
查看即时差异：自动查看所有实验的性能差异，这意味着你不一定需要执行手动并排选择。
加速评估：快速确定新的迭代是否达到或超过你当前的性能标准。

实验标签视图，其中一个实验被标记为表格顶部的基线。分数显示在其他实验行中与基线的对比。

要为数据集设置基线：

在 LangSmith UI 中，导航到左侧菜单中的 数据集与实验 选项。
从表格中选择你要处理的数据集。
在实验标签视图中，将鼠标悬停在实验行上，以在行的右端显示 设置基线 按钮。点击以选择你的基线实验。

你的基线实验将固定在表格顶部，并在其名称旁边显示基线标签。一旦实验被设置为基线，表格将在每个实验的每一列中显示与基线的分数对比。当你选择多个实验进行比较时，基线实验将作为默认的源实验进行比较。

在实验标签视图中按模型、提示和工具筛选与分组

实验表包括模型、提示和工具列，显示每个实验使用了哪些模型、提示和工具，从而更容易一目了然地了解运行之间的变化。当你从 Playground 运行实验时，这些列会自动填充。通过 SDK 运行实验时，将包含 models、prompts 和 tools 键的 metadata 对象传递给 evaluate()：

results = client.evaluate(
    target,
    data="my-dataset",
    evaluators=[...],
    metadata={
        "models": "openai:gpt-5.4-mini",
        "prompts": ["my-org/my-prompt:abc12345"],
        "tools": [{"name": "web_search", "description": "Search the web for information"}],
    },
)

有关使用元数据的示例，请参阅如何评估 LLM 应用程序。这些列仅在数据集中至少有一个实验设置了该字段时才会出现。填充后，点击这些列中的值以筛选或分组实验。

你还可以在实验标签视图的左上角按模型、模型提供商、提示、提示提交、工具和其他实验元数据进行筛选和分组：

将实验结果下载为 CSV

LangSmith 允许你将实验结果下载为 CSV 文件，以供外部分析和共享。点击实验视图右上角的 下载为 CSV 图标。

实验结果的下载限制为 5,000 行。

重命名实验

实验名称在每个工作区中必须是唯一的。

你可以在 LangSmith UI 的以下位置重命名实验：

实验视图：使用实验名称旁边的铅笔图标重命名实验。
Playground：系统会自动分配一个格式为 pg::prompt-name::model::uuid（例如 pg::gpt-5.4-mini::897ee630）的默认名称。你可以在运行实验后立即通过编辑 Playground 表格标题中的名称来重命名实验。

将这些文档连接到 Claude、VSCode 等，通过 MCP 获取实时答案。

在 GitHub 上编辑此页面或提交问题。

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

分析单个实验

打开实验视图

查看实验结果

自定义列

排序和筛选

表格视图

查看跟踪

查看评估器运行

按元数据分组结果

重复

与另一个实验比较

在实验标签视图中设置基线

在实验标签视图中按模型、提示和工具筛选与分组

将实验结果下载为 CSV

重命名实验

​分析单个实验

​打开实验视图

​查看实验结果

​自定义列

​排序和筛选

​表格视图

​查看跟踪

​查看评估器运行

​按元数据分组结果

​重复

​与另一个实验比较

​在实验标签视图中设置基线

​在实验标签视图中按模型、提示和工具筛选与分组

​将实验结果下载为 CSV

​重命名实验

分析单个实验

打开实验视图

查看实验结果

自定义列

排序和筛选

表格视图

查看跟踪

查看评估器运行

按元数据分组结果

重复

与另一个实验比较

在实验标签视图中设置基线

在实验标签视图中按模型、提示和工具筛选与分组

将实验结果下载为 CSV

重命名实验