可观测性与调试: 提示工程:
- Playground:编辑和优化提示。
- Prompt Hub 页面:探索和理解共享提示。

开始使用
在开始使用 Polly 之前,您需要为您使用的模型添加 API 密钥: 在 LangSmith UI 中,确保您的 API 密钥已设置为工作区密钥。- 导航至 设置,然后转到 密钥 选项卡。
- 选择 添加密钥,输入密钥环境变量(例如,
OPENAI_API_KEY或ANTHROPIC_API_KEY)以及您的 API 密钥作为 值。 - 选择 保存密钥。
在 LangSmith UI 中添加工作区密钥时,请确保密钥键名与您的模型提供商期望的环境变量名称相匹配。
支持的模型
Polly 开箱即用地支持以下模型提供商:- Anthropic (Claude)
- OpenAI
- Google Gemini
- AWS Bedrock
- Groq
- Mistral
- xAI
- DeepSeek
- Fireworks AI
键盘快捷键
| 操作 | Mac | Windows/Linux |
|---|---|---|
| 切换 Polly 打开/关闭 | Cmd+I | Ctrl+I |
| 清除当前线程 | Cmd+Shift+O | Ctrl+Shift+O |
可观测性
项目
在项目的运行列表中,Polly 可以浏览和筛选整个项目中的运行,创建数据集并添加示例。使用 Polly 快速探索跟踪中发生的情况,无需手动翻页查看结果。 示例问题:- “显示过去 24 小时内所有失败的运行”
- “哪些运行耗时最长?”
- “将失败的运行添加到我的测试数据集中”
- “本周有多少运行出错?”
跟踪页面
在单个跟踪上,Polly 分析运行数据和执行轨迹。Polly 检查完整的跟踪上下文,包括运行元数据、输入、输出、中间步骤和配置,以帮助您理解发生了什么并识别改进领域。 示例问题:- “智能体在这里有什么可以做得更好的地方吗?”
- “为什么这次运行失败了?”
- “这次跟踪中耗时最长的是什么?”
- “总结一下这次跟踪中发生的事情”
线程视图
在 Threads 标签下,Polly 分析对话线程,帮助您理解用户情绪、对话结果和交互模式。使用 Polly 识别用户痛点并了解问题是否已解决。 示例问题:- “用户看起来沮丧吗?”
- “用户遇到了什么问题?”
- “用户的问题解决了吗?”
- “这个线程的主要话题是什么?”
提示工程
Playground
在 Playground 中,Polly 帮助您编辑和优化提示。使用自动化选项,如 Optimize prompt、Generate a tool 或 Generate an output schema,或者给 Polly 自定义指令来编辑您的提示。Polly 可以直接修改 Playground 状态——更新消息、工具、输出模式和示例——以便您可以通过对话迭代提示。 示例问题:- “让它用意大利语回复”
- “添加更多关于用户角色的上下文”
- “让语气更专业”
- “简化指令”
Prompt Hub 页面
在 LangSmith Hub 中查看提示时,Polly 帮助您理解提示的结构、消息、工具和配置。这对于探索和学习共享提示很有用。 示例问题:- “这个提示是做什么的?”
- “这个提示使用了哪些工具?”
- “解释这个提示的结构”
- “这个提示中的关键指令是什么?”
评估
数据集实验
在 Datasets 页面的 Experiments 标签下,Polly 分析实验结果并帮助您比较不同实验中的运行。Polly 可以识别模式、总结性能,并帮助您理解哪些方法最有效。 示例问题:- “哪个实验表现最好?”
- “这些运行之间有什么主要区别?”
- “总结这个实验的结果”
- “你在失败中看到了什么模式?”
数据集示例
在 Datasets 页面的 Examples 标签下,Polly 帮助您理解数据集结构、浏览示例并识别数据模式。这对于理解您正在处理的数据以及为实验准备数据集很有用。 示例问题:- “这个数据集中是什么类型的数据?”
- “显示有错误的示例”
- “你在输入中看到了什么模式?”
- “这个数据集中有多少个示例?”
标注队列
在 Annotation Queues 中,Polly 帮助您在做出标注决策之前分析运行。无论您是单独审查运行还是成对比较它们,Polly 都能提供有关运行行为、错误和执行模式的见解,以指导您的评分。 示例问题:- “这次运行出了什么问题?”
- “总结这次运行中发生的事情”
- “比较这两次运行”
- “评分时我应该考虑什么?”
评估器
在 Evaluators 构建器中,Polly 帮助您编写和完善评估器逻辑。Polly 可以生成评估器代码、建议改进,并帮助您针对示例测试评估器。 示例问题:- “编写一个检查幻觉的评估器”
- “提高这个评估器的准确性”
- “这个评估器检查什么?”
- “添加对边缘情况的处理”
下一步
了解更多关于 Polly 帮助您探索的功能:可观测性
了解更多关于跟踪和监控您的 LLM 应用程序
线程
了解线程在 LangSmith 中如何工作
提示工程
在 Playground 中创建和迭代提示
评估
系统地评估和测试您的应用程序
将这些文档通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。


