LangSmith Polly

LangSmith Polly 是一个直接嵌入在您的 LangSmith 工作区中的 AI 助手，旨在帮助您分析和理解应用数据。 Polly 帮助您从跟踪、对话线程和提示中获取洞察，无需手动翻阅数据。通过提出自然语言问题，您可以快速了解智能体性能、调试问题并分析用户情绪。

Polly 出现在 LangSmith UI 中以下位置的右下角：

可观测性与调试：

项目：浏览和筛选项目中的运行。
跟踪页面：分析单个运行和执行跟踪。
线程视图：理解对话线程和用户交互。

提示工程：

Playground：编辑和优化提示。
Prompt Hub 页面：探索和理解共享提示。

评估与测试：

数据集实验：分析实验结果并比较运行。
数据集示例：浏览和理解数据集结构。
标注队列：审查运行并做出明智的标注决策。
评估器：在 AI 辅助下构建和完善评估器。

开始使用

在开始使用 Polly 之前，您需要为您使用的模型添加 API 密钥：在 LangSmith UI 中，确保您的 API 密钥已设置为工作区密钥。

导航至设置，然后转到密钥选项卡。
选择 添加密钥，输入密钥环境变量（例如，OPENAI_API_KEY 或 ANTHROPIC_API_KEY）以及您的 API 密钥作为值。
选择 保存密钥。

在 LangSmith UI 中添加工作区密钥时，请确保密钥键名与您的模型提供商期望的环境变量名称相匹配。

支持的模型

Polly 开箱即用地支持以下模型提供商：

Anthropic (Claude)
OpenAI
Google Gemini
AWS Bedrock
Groq
Mistral
xAI
DeepSeek
Fireworks AI

您也可以使用在 Playground 设置中配置的任何自定义模型，只需在该配置上启用 Available in Polly 开关。工作区管理员管理哪些自定义模型可用。

键盘快捷键

操作	Mac	Windows/Linux
切换 Polly 打开/关闭	`Cmd+I`	`Ctrl+I`
清除当前线程	`Cmd+Shift+O`	`Ctrl+Shift+O`

可观测性

项目

在项目的运行列表中，Polly 可以浏览和筛选整个项目中的运行，创建数据集并添加示例。使用 Polly 快速探索跟踪中发生的情况，无需手动翻页查看结果。 示例问题：

“显示过去 24 小时内所有失败的运行”
“哪些运行耗时最长？”
“将失败的运行添加到我的测试数据集中”
“本周有多少运行出错？”

跟踪页面

在单个跟踪上，Polly 分析运行数据和执行轨迹。Polly 检查完整的跟踪上下文，包括运行元数据、输入、输出、中间步骤和配置，以帮助您理解发生了什么并识别改进领域。 示例问题：

“智能体在这里有什么可以做得更好的地方吗？”
“为什么这次运行失败了？”
“这次跟踪中耗时最长的是什么？”
“总结一下这次跟踪中发生的事情”

线程视图

在 Threads 标签下，Polly 分析对话线程，帮助您理解用户情绪、对话结果和交互模式。使用 Polly 识别用户痛点并了解问题是否已解决。 示例问题：

“用户看起来沮丧吗？”
“用户遇到了什么问题？”
“用户的问题解决了吗？”
“这个线程的主要话题是什么？”

提示工程

Playground

在 Playground 中，Polly 帮助您编辑和优化提示。使用自动化选项，如 Optimize prompt、Generate a tool 或 Generate an output schema，或者给 Polly 自定义指令来编辑您的提示。Polly 可以直接修改 Playground 状态——更新消息、工具、输出模式和示例——以便您可以通过对话迭代提示。 示例问题：

“让它用意大利语回复”
“添加更多关于用户角色的上下文”
“让语气更专业”
“简化指令”

Prompt Hub 页面

在 LangSmith Hub 中查看提示时，Polly 帮助您理解提示的结构、消息、工具和配置。这对于探索和学习共享提示很有用。 示例问题：

“这个提示是做什么的？”
“这个提示使用了哪些工具？”
“解释这个提示的结构”
“这个提示中的关键指令是什么？”

评估

数据集实验

在 Datasets 页面的 Experiments 标签下，Polly 分析实验结果并帮助您比较不同实验中的运行。Polly 可以识别模式、总结性能，并帮助您理解哪些方法最有效。 示例问题：

“哪个实验表现最好？”
“这些运行之间有什么主要区别？”
“总结这个实验的结果”
“你在失败中看到了什么模式？”

数据集示例

在 Datasets 页面的 Examples 标签下，Polly 帮助您理解数据集结构、浏览示例并识别数据模式。这对于理解您正在处理的数据以及为实验准备数据集很有用。 示例问题：

“这个数据集中是什么类型的数据？”
“显示有错误的示例”
“你在输入中看到了什么模式？”
“这个数据集中有多少个示例？”

标注队列

在 Annotation Queues 中，Polly 帮助您在做出标注决策之前分析运行。无论您是单独审查运行还是成对比较它们，Polly 都能提供有关运行行为、错误和执行模式的见解，以指导您的评分。 示例问题：

“这次运行出了什么问题？”
“总结这次运行中发生的事情”
“比较这两次运行”
“评分时我应该考虑什么？”

评估器

在 Evaluators 构建器中，Polly 帮助您编写和完善评估器逻辑。Polly 可以生成评估器代码、建议改进，并帮助您针对示例测试评估器。 示例问题：

“编写一个检查幻觉的评估器”
“提高这个评估器的准确性”
“这个评估器检查什么？”
“添加对边缘情况的处理”

下一步

了解更多关于 Polly 帮助您探索的功能：

可观测性

了解更多关于跟踪和监控您的 LLM 应用程序

线程

了解线程在 LangSmith 中如何工作

提示工程

在 Playground 中创建和迭代提示

评估

系统地评估和测试您的应用程序

将这些文档通过 MCP 连接到 Claude、VSCode 等，以获取实时答案。

在 GitHub 上编辑此页面或提交问题。

Account administration

Tools

Additional resources

开始使用

支持的模型

键盘快捷键

可观测性

项目

跟踪页面

线程视图

提示工程

Playground

Prompt Hub 页面

评估

数据集实验

数据集示例

标注队列

评估器

下一步

可观测性

线程

提示工程

评估

​开始使用

​支持的模型

​键盘快捷键

​可观测性

​项目

​跟踪页面

​线程视图

​提示工程

​Playground

​Prompt Hub 页面

​评估

​数据集实验

​数据集示例

​标注队列

​评估器

​下一步

可观测性

线程

提示工程

评估

开始使用

支持的模型

键盘快捷键

可观测性

项目

跟踪页面

线程视图

提示工程

Playground

Prompt Hub 页面

评估

数据集实验

数据集示例

标注队列

评估器

下一步