自托管版本要求访问警报功能需要 Helm chart 版本 0.10.3 或更高版本。
概述
在 LLM 应用中实现有效的可观测性,需要主动检测故障、性能下降和回退。LangSmith 的警报功能有助于识别关键问题,例如:- 来自模型提供商的 API 速率限制违规
- 应用程序延迟增加
- 影响反映最终用户体验的反馈分数的应用程序更改
- LLM 使用导致的意外成本飙升
配置警报
步骤 1:导航至创建警报
在 UI 中,导航到您想要配置警报的 Tracing 项目。点击页面右上角的 警报 图标,以查看该项目的现有警报并设置新警报。步骤 2:选择指标类型
LangSmith 提供基于阈值的警报,支持以下指标:
此外,对于错误和延迟,您可以定义过滤器以缩小触发警报的运行范围。例如,您可以为所有标记为
support_agent 且遇到 RateLimitExceeded 错误的 llm 运行创建一个错误警报过滤器。

步骤 2:定义警报条件
警报条件由几个部分组成:- 聚合方法:平均值、百分比或计数
- 比较运算符:
>=、<=或超过阈值 - 阈值数值:触发警报的数值
- 聚合窗口:用于计算指标的时间段(目前可选择 5 或 15 分钟)
- 反馈键(仅限反馈分数警报):要监控的特定反馈指标


步骤 3:配置通知渠道
- PagerDuty
- Dynatrace
- Webhook
使用 PagerDuty 的 Events API v2 将 PagerDuty 配置为通知渠道。此集成允许关键的 LLM 应用问题触发 PagerDuty 事件,从而通过您已建立的事件管理工作流实现快速响应。先决条件
- 一个具有管理员访问权限的活跃 PagerDuty 账户
- 在 PagerDuty 中具有适当的服务级权限
1. 在 PagerDuty 中创建服务
- 登录您的 PagerDuty 账户
- 导航至 Services → Service Directory
- 点击 + New Service
- 填写以下字段:
- Name:提供一个描述性名称(例如 “LangSmith Monitoring”)
- Description:添加有关受监控应用程序的详细信息
- Escalation Policy:选择适当的团队升级策略
- Integration Type:选择 “Events API V2”
- 点击 Add Service 以创建服务
2. 获取集成密钥
创建服务后,检索集成密钥:- 从 Service Directory 中,找到并点击您新创建的服务
- 选择 Integrations 选项卡
- 找到 “Events API V2” 集成
-
复制 Integration Key(一个 32 位的字母数字字符串)

3. 使用 PagerDuty 配置 LangSmith 警报
要在警报触发后一小时内再次收到相同的警报,您必须在 PagerDuty 中解决由警报创建的活跃事件。

- 在 LangSmith 中警报设置的通知部分,选择 PagerDuty
- 点击钥匙图标将集成密钥保存为工作区密钥,或选择现有的工作区密钥。作为最佳实践,我们建议将集成密钥保存为工作区密钥,而不是直接添加。这将允许您在工作区的警报中重复使用相同的密钥。
- 配置其他通知选项:
- 严重性:映射到 PagerDuty 事件优先级
- 点击 Send Test Alert 发送测试警报
- 验证 PagerDuty 是否触发了事件,并包含相关的 LangSmith 警报信息
故障排除
如果 PagerDuty 中未创建事件:- 验证集成密钥在 LangSmith 中输入正确
- 确保 PagerDuty 服务处于活动状态且未处于维护模式
- 检查您的 PagerDuty 账户是否启用了 Events API v2
- 如果 PagerDuty 中似乎缺少警报触发器,请检查预期的触发器是否在来自同一警报规则的先前触发器的一小时内发生,以及先前警报创建的事件是否仍然开放。
- 如果您的 LangSmith 实例位于防火墙后,请检查网络连接
附加资源
最佳实践
- 根据应用程序的关键性调整灵敏度
- 从更宽的阈值开始,并根据观察到的模式进行细化
- 确保警报路由到达适当的值班人员
将这些文档通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。



