你也可以使用 SDK 以编程方式管理标注队列和反馈配置。请参阅以编程方式管理反馈与标注队列。
- 单运行标注队列 一次呈现一个运行,并允许审查者提交你配置的任何评分标准反馈。
- 成对标注队列 (PAQ) 并排呈现两个运行,以便审查者可以根据你定义的评分标准快速决定哪个输出更好(或者它们是否等效)。
单运行标注队列
单运行队列一次呈现一个运行,并允许审查者提交你配置的任何评分标准反馈。它们可以直接从 LangSmith UI 的 标注队列 部分创建。创建单运行队列
- 在左侧导航栏中导航到 标注队列。
-
点击左上角的 + 标注队列。

基本信息
- 填写队列的 名称 和 描述。
- 可选地分配一个 默认数据集,以简化将已审查的运行导出到 LangSmith 工作区中的数据集。
标注评分标准
- 为你的标注者起草一些高级 说明,这些说明将显示在每个运行的侧边栏中。
- 点击 + 添加反馈评分标准 以向你的标注队列添加反馈键。标注者将在每个运行上看到这些反馈键。
-
为每个反馈键添加描述,如果反馈是分类的,还需添加每个类别的简短描述。
例如,使用上一个截图中的描述,审查者将在 UI 的右侧面板中看到 标注评分标准 详细信息。

协作者设置
设置审查者数量或你希望将项目保留给协作者的最长时间。当一个运行有多个标注者时,你可以选择让该运行留在队列中,直到所有审查者都将其标记为 完成。设置如下:- 所有工作区成员审查每个运行:启用后,运行将保留在队列中,直到每个工作区成员都将其审查标记为 完成。
-
启用运行保留:保留一个运行会将其锁定供你在设定的时间内进行审查。当运行被保留时,其他审查者可以查看它,但不能添加反馈或注释。如果所有工作区成员都审查每个运行,则禁用保留功能。
如果审查者查看了一个运行,然后在未将其标记为 完成 的情况下离开该运行,保留将在指定的 保留时长 后过期。然后该运行将被释放回队列,并可被其他审查者保留。
点击运行标注的 重新排队 仅会将当前运行移动到当前用户队列的末尾;它不会影响任何其他用户的队列顺序。它还会释放当前用户对该运行的保留。
-
每个运行的审查者数量:这决定了必须将运行标记为 完成 才能将其从队列中移除的审查者数量。
- 审查者无法查看其他审查者留下的反馈。
- 运行上的评论对所有审查者可见。
当启用 使用指定审查者 时(见下文),每个运行的审查者数量 设置将被隐藏。 -
使用指定审查者:启用此切换以使用特定的工作区成员,而不是基于数量的阈值。启用后:
- 出现一个多选用户选择器,以便你可以选择特定的工作区成员作为指定审查者。
- 只有当每个指定审查者都提交了他们的审查后,运行才会被标记为 已完成。队列项目经历三个状态:需要审查 → 需要他人审查 → 已完成。
- 非指定的工作区成员仍然可以标注运行,但他们的提交不计入完成度。
- 任何工作区成员都可以在队列设置中编辑指定审查者列表。
当你向一个已有完成项目的队列添加新的指定审查者时,这些项目不会恢复为待处理状态。如果你移除一个指定审查者,任何他们尚未审查的项目将重新计算其完成状态。
编辑队列设置
-
打开要编辑的标注队列的 编辑标注队列 面板。你可以通过两种方式访问此面板:
- 在 标注队列 列表中,点击队列行右侧的 操作 图标 。从下拉菜单中选择 编辑。
- 在标注队列视图中,点击右上角的 设置 图标 。
- 在 编辑标注队列 面板中,修改你在创建队列时配置的任何设置,然后点击 保存。
将运行分配到单运行队列
有几种方法可以将工作项填充到单运行队列中:-
从跟踪视图:在任何跟踪视图的右上角点击 添加到标注队列。你可以添加任何中间运行,但不能添加根跨度。

-
从运行表:选择多个运行,然后点击页面底部的 添加到标注队列。

- 自动化规则:设置规则以自动将符合过滤器(例如,错误或低用户评分)的运行分配到队列中。
-
数据集与实验:在数据集中选择一个或多个实验,然后点击 标注。选择现有队列或创建新队列,然后确认(单运行)队列选项。

审查单运行队列
- 通过左侧导航栏导航到 标注队列 部分。 队列列表包含一个 指定审查者 列,显示每个队列分配了哪些审查者。要仅查看分配给你的队列,请点击列表顶部的 分配给我 过滤器。
- 点击你要审查的队列。这将带你进入一个专注的、循环的视图,显示队列中需要审查的运行。左侧面板显示每个运行的状态(需要审查、需要他人审查、已完成)。
- 添加 审查者注释,评分 反馈 标准,或将运行标记为已审查。要构建数据集,请编辑运行的输入和输出以创建更正的参考示例,然后点击 添加到数据集。点击 删除 以从队列中移除该运行,对所有用户生效,无论当前的保留或队列设置如何。
成对标注队列
成对标注队列 (PAQ) 并排呈现两个运行,以便审查者可以根据你定义的评分标准快速决定哪个输出更好(或者它们是否等效)。它们专为两个实验(通常是基线与候选模型)之间的快速 A/B 比较而设计,必须从 数据集与实验 页面创建。创建成对队列
- 导航到 数据集与实验,打开一个数据集,并选择你想要比较的 恰好两个实验。
-
点击 标注。在弹出窗口中,选择 添加到成对标注队列。(在恰好选择两个实验之前,该按钮处于禁用状态。)

- 决定是将实验发送到现有的成对队列还是创建一个新队列。
-
提供队列详细信息:
- 基本信息(名称和描述)
- 说明与评分标准,针对成对评分进行定制
- 协作者设置(审查者数量、保留、保留时长)
- 提交表单以创建队列。LangSmith 立即配对来自两个实验的运行并填充队列。
- 实验:你必须预先提供两个实验会话。LangSmith 在创建时按时间顺序自动配对它们的运行并填充队列。
- 评分标准:成对评分标准项只需要一个反馈键和(可选的)描述。标注者决定对于每个评分标准项,是运行 A、运行 B 还是两者都更好。
- 数据集:成对队列不使用默认数据集,因为比较跨越两个实验。
- 保留与审查者:相同的协作者控制适用。保留有助于防止两人同时判断同一比较。
向成对队列添加更多比较
如果你需要稍后添加更多比较,请返回 数据集与实验,再次选择两个实验,然后选择 添加到成对标注队列 以追加新的配对。 选择两个实验并创建 PAQ 会自动配对运行。当扩展现有 PAQ 时,LangSmith 会保留历史比较并将新配对追加到队列中。审查成对队列
- 从 标注队列 中,选择你要审查的成对队列。
- 每个队列项目在左侧显示运行 A,在右侧显示运行 B,以及你的评分标准。
- 对于每个评分标准项:
- 选择 A 更好、B 更好 或 相等。UI 在后台记录两个运行的二元反馈。
- 使用快捷键
A、B或E来锁定你的选择。
- 完成所有评分标准项后,按 完成(或在最后一个评分标准项上按
Enter)以进入下一个比较。 - 可选操作:
- 留下与任一运行相关的评论。
- 如果需要稍后重新查看,请重新排队该比较。
- 打开完整的跟踪视图以进行更深入的调试。

考虑将已有用户反馈(例如,点踩)的运行路由到单运行队列进行分类,并路由到成对队列与更强的基线进行正面比较。这有助于你快速识别回归。要了解如何从你的 LLM 应用程序捕获用户反馈,请参阅附加用户反馈指南。
视频指南
连接这些文档到 Claude、VSCode 等,通过 MCP 获取实时答案。

