Skip to main content
标注队列 为人类标注者提供了一个精简、定向的视图,用于将反馈附加到特定的运行。虽然你始终可以内联标注跟踪,但标注队列提供了一种将运行分组、规定评分标准并跟踪审查者进度的方法。
你也可以使用 SDK 以编程方式管理标注队列和反馈配置。请参阅以编程方式管理反馈与标注队列
LangSmith 支持两种队列样式:
  • 单运行标注队列 一次呈现一个运行,并允许审查者提交你配置的任何评分标准反馈。
  • 成对标注队列 (PAQ) 并排呈现两个运行,以便审查者可以根据你定义的评分标准快速决定哪个输出更好(或者它们是否等效)。
要查看使用标注队列的演示,请观看标注队列入门视频指南。

单运行标注队列

单运行队列一次呈现一个运行,并允许审查者提交你配置的任何评分标准反馈。它们可以直接从 LangSmith UI标注队列 部分创建。

创建单运行队列

  1. 在左侧导航栏中导航到 标注队列
  2. 点击左上角的 + 标注队列 创建标注队列表单,包含基本信息、标注评分标准和反馈部分。

基本信息

  1. 填写队列的 名称描述
  2. 可选地分配一个 默认数据集,以简化将已审查的运行导出到 LangSmith 工作区中的数据集。

标注评分标准

  1. 为你的标注者起草一些高级 说明,这些说明将显示在每个运行的侧边栏中。
  2. 点击 + 添加反馈评分标准 以向你的标注队列添加反馈键。标注者将在每个运行上看到这些反馈键。
  3. 为每个反馈键添加描述,如果反馈是分类的,还需添加每个类别的简短描述。 标注队列评分标准表单,已输入说明和期望的反馈。 例如,使用上一个截图中的描述,审查者将在 UI 的右侧面板中看到 标注评分标准 详细信息。 根据示例说明为标注者呈现的评分标准。

协作者设置

设置审查者数量或你希望将项目保留给协作者的最长时间。当一个运行有多个标注者时,你可以选择让该运行留在队列中,直到所有审查者都将其标记为 完成。设置如下:
  • 所有工作区成员审查每个运行:启用后,运行将保留在队列中,直到每个工作区成员都将其审查标记为 完成
  • 启用运行保留:保留一个运行会将其锁定供你在设定的时间内进行审查。当运行被保留时,其他审查者可以查看它,但不能添加反馈或注释。如果所有工作区成员都审查每个运行,则禁用保留功能。 如果审查者查看了一个运行,然后在未将其标记为 完成 的情况下离开该运行,保留将在指定的 保留时长 后过期。然后该运行将被释放回队列,并可被其他审查者保留。
    点击运行标注的 重新排队 仅会将当前运行移动到当前用户队列的末尾;它不会影响任何其他用户的队列顺序。它还会释放当前用户对该运行的保留。
  • 每个运行的审查者数量:这决定了必须将运行标记为 完成 才能将其从队列中移除的审查者数量。
    • 审查者无法查看其他审查者留下的反馈。
    • 运行上的评论对所有审查者可见。
    当启用 使用指定审查者 时(见下文),每个运行的审查者数量 设置将被隐藏。
  • 使用指定审查者:启用此切换以使用特定的工作区成员,而不是基于数量的阈值。启用后:
    • 出现一个多选用户选择器,以便你可以选择特定的工作区成员作为指定审查者。
    • 只有当每个指定审查者都提交了他们的审查后,运行才会被标记为 已完成。队列项目经历三个状态:需要审查需要他人审查已完成
    • 非指定的工作区成员仍然可以标注运行,但他们的提交不计入完成度。
    • 任何工作区成员都可以在队列设置中编辑指定审查者列表。
    当你向一个已有完成项目的队列添加新的指定审查者时,这些项目不会恢复为待处理状态。如果你移除一个指定审查者,任何他们尚未审查的项目将重新计算其完成状态。
由于这些设置,每个审查者可见的运行数量可能与队列总数不同。

编辑队列设置

  1. 打开要编辑的标注队列的 编辑标注队列 面板。你可以通过两种方式访问此面板:
    • 标注队列 列表中,点击队列行右侧的 操作 图标 。从下拉菜单中选择 编辑
    • 在标注队列视图中,点击右上角的 设置 图标
  2. 编辑标注队列 面板中,修改你在创建队列时配置的任何设置,然后点击 保存

将运行分配到单运行队列

有几种方法可以将工作项填充到单运行队列中:
  • 从跟踪视图:在任何跟踪视图的右上角点击 添加到标注队列。你可以添加任何中间运行,但不能添加根跨度。 跟踪视图,屏幕顶部突出显示了“添加到标注队列”按钮。
  • 从运行表:选择多个运行,然后点击页面底部的 添加到标注队列 运行表视图,已选择运行。页面底部的“添加到标注队列”按钮。
  • 自动化规则设置规则以自动将符合过滤器(例如,错误或低用户评分)的运行分配到队列中。
  • 数据集与实验:在数据集中选择一个或多个实验,然后点击 标注。选择现有队列或创建新队列,然后确认(单运行)队列选项。 已选择的实验,页面底部的“标注”按钮。

审查单运行队列

  1. 通过左侧导航栏导航到 标注队列 部分。 队列列表包含一个 指定审查者 列,显示每个队列分配了哪些审查者。要仅查看分配给你的队列,请点击列表顶部的 分配给我 过滤器。
  2. 点击你要审查的队列。这将带你进入一个专注的、循环的视图,显示队列中需要审查的运行。左侧面板显示每个运行的状态(需要审查需要他人审查已完成)。
  3. 添加 审查者注释,评分 反馈 标准,或将运行标记为已审查。要构建数据集,请编辑运行的输入和输出以创建更正的参考示例,然后点击 添加到数据集。点击 删除 以从队列中移除该运行,对所有用户生效,无论当前的保留或队列设置如何。
    每个选项旁边的键盘快捷键可以帮助简化审查过程。

成对标注队列

成对标注队列 (PAQ) 并排呈现两个运行,以便审查者可以根据你定义的评分标准快速决定哪个输出更好(或者它们是否等效)。它们专为两个实验(通常是基线与候选模型)之间的快速 A/B 比较而设计,必须从 数据集与实验 页面创建。

创建成对队列

  1. 导航到 数据集与实验,打开一个数据集,并选择你想要比较的 恰好两个实验
  2. 点击 标注。在弹出窗口中,选择 添加到成对标注队列。(在恰好选择两个实验之前,该按钮处于禁用状态。) 弹出窗口显示“添加到成对标注队列”卡片,在选择两个实验后突出显示。
  3. 决定是将实验发送到现有的成对队列还是创建一个新队列。
  4. 提供队列详细信息:
    • 基本信息(名称和描述)
    • 说明与评分标准,针对成对评分进行定制
    • 协作者设置(审查者数量、保留、保留时长)
  5. 提交表单以创建队列。LangSmith 立即配对来自两个实验的运行并填充队列。
PAQ 的关键区别:
  • 实验:你必须预先提供两个实验会话。LangSmith 在创建时按时间顺序自动配对它们的运行并填充队列。
  • 评分标准:成对评分标准项只需要一个反馈键和(可选的)描述。标注者决定对于每个评分标准项,是运行 A、运行 B 还是两者都更好。
  • 数据集:成对队列不使用默认数据集,因为比较跨越两个实验。
  • 保留与审查者:相同的协作者控制适用。保留有助于防止两人同时判断同一比较。

向成对队列添加更多比较

如果你需要稍后添加更多比较,请返回 数据集与实验,再次选择两个实验,然后选择 添加到成对标注队列 以追加新的配对。 选择两个实验并创建 PAQ 会自动配对运行。当扩展现有 PAQ 时,LangSmith 会保留历史比较并将新配对追加到队列中。

审查成对队列

  1. 标注队列 中,选择你要审查的成对队列。
  2. 每个队列项目在左侧显示运行 A,在右侧显示运行 B,以及你的评分标准。
  3. 对于每个评分标准项:
    • 选择 A 更好B 更好相等。UI 在后台记录两个运行的二元反馈。
    • 使用快捷键 ABE 来锁定你的选择。
  4. 完成所有评分标准项后,按 完成(或在最后一个评分标准项上按 Enter)以进入下一个比较。
  5. 可选操作:
    • 留下与任一运行相关的评论。
    • 如果需要稍后重新查看,请重新排队该比较。
    • 打开完整的跟踪视图以进行更深入的调试。
保留、审查者阈值和评论的行为与单运行队列中的相同,使团队无需修改现有工作流程即可使用不同的队列类型。 成对审查屏幕,并排显示运行,反馈面板包含 A/B/相等按钮和键盘快捷键。
考虑将已有用户反馈(例如,点踩)的运行路由到单运行队列进行分类,并路由到成对队列与更强的基线进行正面比较。这有助于你快速识别回归。要了解如何从你的 LLM 应用程序捕获用户反馈,请参阅附加用户反馈指南。

视频指南