Skip to main content
自托管版本要求访问警报功能需要 Helm chart 版本 0.10.3 或更高版本。

概述

在 LLM 应用中实现有效的可观测性,需要主动检测故障、性能下降和回退。LangSmith 的警报功能有助于识别关键问题,例如:
  • 来自模型提供商的 API 速率限制违规
  • 应用程序延迟增加
  • 影响反映最终用户体验的反馈分数的应用程序更改
  • LLM 使用导致的意外成本飙升
LangSmith 中的警报是项目范围的,需要为每个受监控的项目单独配置。

配置警报

步骤 1:导航至创建警报

UI 中,导航到您想要配置警报的 Tracing 项目。点击页面右上角的 警报 图标,以查看该项目的现有警报并设置新警报。

步骤 2:选择指标类型

LangSmith 提供基于阈值的警报,支持以下指标:
指标类型描述用例
运行次数跟踪时间窗口内的总运行次数。监控管道是否以预期的卷产生运行,并在意外下降时发出警报。
成本跟踪时间窗口内运行的总成本。监控 LLM 支出,在成本超过预期阈值时发出警报。需要配置成本跟踪
错误跟踪具有错误状态的运行。对总错误数或错误百分比(错误运行次数占所有运行次数的比例)发出警报。监控应用程序中的故障,或在错误率超过可接受阈值时发出警报。
反馈分数衡量平均反馈分数。跟踪来自最终用户的反馈在线评估结果,以在出现回退时发出警报。
延迟衡量平均运行执行时间。跟踪应用程序的延迟,以在出现峰值和性能瓶颈时发出警报。
此外,对于错误延迟,您可以定义过滤器以缩小触发警报的运行范围。例如,您可以为所有标记为 support_agent 且遇到 RateLimitExceeded 错误的 llm 运行创建一个错误警报过滤器。
警报指标

步骤 2:定义警报条件

警报条件由几个部分组成:
  • 聚合方法:平均值、百分比或计数
  • 比较运算符>=<= 或超过阈值
  • 阈值数值:触发警报的数值
  • 聚合窗口:用于计算指标的时间段(目前可选择 5 或 15 分钟)
  • 反馈键(仅限反馈分数警报):要监控的特定反馈指标

警报条件配置
示例: 上面显示的配置将在过去 5 分钟内超过 5% 的运行导致错误时生成警报。 您可以预览历史时间窗口内的警报行为,以了解在选定阈值(以红色指示)下,有多少数据点——以及哪些数据点——会触发警报。例如,为项目设置 60 秒的平均延迟阈值,可以让您可视化潜在的警报,如下图所示。
警报指标

步骤 3:配置通知渠道

使用 PagerDuty 的 Events API v2 将 PagerDuty 配置为通知渠道。此集成允许关键的 LLM 应用问题触发 PagerDuty 事件,从而通过您已建立的事件管理工作流实现快速响应。先决条件
  • 一个具有管理员访问权限的活跃 PagerDuty 账户
  • 在 PagerDuty 中具有适当的服务级权限
如果使用 LangSmith 的自定义部署,请确保没有防火墙设置阻止来自 LangSmith 服务的出站流量。

1. 在 PagerDuty 中创建服务

  1. 登录您的 PagerDuty 账户
  2. 导航至 Services → Service Directory
  3. 点击 + New Service
  4. 填写以下字段:
    • Name:提供一个描述性名称(例如 “LangSmith Monitoring”)
    • Description:添加有关受监控应用程序的详细信息
    • Escalation Policy:选择适当的团队升级策略
    • Integration Type:选择 “Events API V2”
  5. 点击 Add Service 以创建服务

2. 获取集成密钥

创建服务后,检索集成密钥:
  1. Service Directory 中,找到并点击您新创建的服务
  2. 选择 Integrations 选项卡
  3. 找到 “Events API V2” 集成
  4. 复制 Integration Key(一个 32 位的字母数字字符串) PagerDuty 集成密钥位置

3. 使用 PagerDuty 配置 LangSmith 警报

要在警报触发后一小时内再次收到相同的警报,您必须在 PagerDuty 中解决由警报创建的活跃事件。
PagerDuty 设置
  1. 在 LangSmith 中警报设置的通知部分,选择 PagerDuty
  2. 点击钥匙图标将集成密钥保存为工作区密钥,或选择现有的工作区密钥。作为最佳实践,我们建议将集成密钥保存为工作区密钥,而不是直接添加。这将允许您在工作区的警报中重复使用相同的密钥。
  3. 配置其他通知选项:
    • 严重性:映射到 PagerDuty 事件优先级
  4. 点击 Send Test Alert 发送测试警报
  5. 验证 PagerDuty 是否触发了事件,并包含相关的 LangSmith 警报信息

故障排除

如果 PagerDuty 中未创建事件:
  • 验证集成密钥在 LangSmith 中输入正确
  • 确保 PagerDuty 服务处于活动状态且未处于维护模式
  • 检查您的 PagerDuty 账户是否启用了 Events API v2
  • 如果 PagerDuty 中似乎缺少警报触发器,请检查预期的触发器是否在来自同一警报规则的先前触发器的一小时内发生,以及先前警报创建的事件是否仍然开放。
  • 如果您的 LangSmith 实例位于防火墙后,请检查网络连接

附加资源

最佳实践

  • 根据应用程序的关键性调整灵敏度
  • 从更宽的阈值开始,并根据观察到的模式进行细化
  • 确保警报路由到达适当的值班人员