Skip to main content
LangSmith Polly 是一个直接嵌入在您的 LangSmith 工作区 中的 AI 助手,旨在帮助您分析和理解应用数据。 Polly 帮助您从跟踪、对话线程和提示中获取洞察,无需手动翻阅数据。通过提出自然语言问题,您可以快速了解智能体性能、调试问题并分析用户情绪。 LangSmith Polly 图标 Polly 出现在 LangSmith UI 中以下位置的右下角:

可观测性与调试:
  • 项目:浏览和筛选项目中的运行。
  • 跟踪页面:分析单个运行和执行跟踪。
  • 线程视图:理解对话线程和用户交互。
提示工程: 评估与测试: 数据集视图侧边栏中的 Polly 聊天。

开始使用

在开始使用 Polly 之前,您需要为您使用的模型添加 API 密钥: LangSmith UI 中,确保您的 API 密钥已设置为工作区密钥
  1. 导航至 设置,然后转到 密钥 选项卡。
  2. 选择 添加密钥,输入密钥环境变量(例如,OPENAI_API_KEYANTHROPIC_API_KEY)以及您的 API 密钥作为
  3. 选择 保存密钥
在 LangSmith UI 中添加工作区密钥时,请确保密钥键名与您的模型提供商期望的环境变量名称相匹配。

支持的模型

Polly 开箱即用地支持以下模型提供商:
  • Anthropic (Claude)
  • OpenAI
  • Google Gemini
  • AWS Bedrock
  • Groq
  • Mistral
  • xAI
  • DeepSeek
  • Fireworks AI
您也可以使用在 Playground 设置 中配置的任何自定义模型,只需在该配置上启用 Available in Polly 开关。工作区管理员管理哪些自定义模型可用。

键盘快捷键

操作MacWindows/Linux
切换 Polly 打开/关闭Cmd+ICtrl+I
清除当前线程Cmd+Shift+OCtrl+Shift+O

可观测性

项目

在项目的运行列表中,Polly 可以浏览和筛选整个项目中的运行,创建数据集并添加示例。使用 Polly 快速探索跟踪中发生的情况,无需手动翻页查看结果。 示例问题:
  • “显示过去 24 小时内所有失败的运行”
  • “哪些运行耗时最长?”
  • “将失败的运行添加到我的测试数据集中”
  • “本周有多少运行出错?”

跟踪页面

在单个跟踪上,Polly 分析运行数据和执行轨迹。Polly 检查完整的跟踪上下文,包括运行元数据、输入、输出、中间步骤和配置,以帮助您理解发生了什么并识别改进领域。 示例问题:
  • “智能体在这里有什么可以做得更好的地方吗?”
  • “为什么这次运行失败了?”
  • “这次跟踪中耗时最长的是什么?”
  • “总结一下这次跟踪中发生的事情”

线程视图

Threads 标签下,Polly 分析对话线程,帮助您理解用户情绪、对话结果和交互模式。使用 Polly 识别用户痛点并了解问题是否已解决。 示例问题:
  • “用户看起来沮丧吗?”
  • “用户遇到了什么问题?”
  • “用户的问题解决了吗?”
  • “这个线程的主要话题是什么?”

提示工程

Playground

Playground 中,Polly 帮助您编辑和优化提示。使用自动化选项,如 Optimize promptGenerate a toolGenerate an output schema,或者给 Polly 自定义指令来编辑您的提示。Polly 可以直接修改 Playground 状态——更新消息、工具、输出模式和示例——以便您可以通过对话迭代提示。 示例问题:
  • “让它用意大利语回复”
  • “添加更多关于用户角色的上下文”
  • “让语气更专业”
  • “简化指令”

Prompt Hub 页面

LangSmith Hub 中查看提示时,Polly 帮助您理解提示的结构、消息、工具和配置。这对于探索和学习共享提示很有用。 示例问题:
  • “这个提示是做什么的?”
  • “这个提示使用了哪些工具?”
  • “解释这个提示的结构”
  • “这个提示中的关键指令是什么?”

评估

数据集实验

Datasets 页面的 Experiments 标签下,Polly 分析实验结果并帮助您比较不同实验中的运行。Polly 可以识别模式、总结性能,并帮助您理解哪些方法最有效。 示例问题:
  • “哪个实验表现最好?”
  • “这些运行之间有什么主要区别?”
  • “总结这个实验的结果”
  • “你在失败中看到了什么模式?”

数据集示例

Datasets 页面的 Examples 标签下,Polly 帮助您理解数据集结构、浏览示例并识别数据模式。这对于理解您正在处理的数据以及为实验准备数据集很有用。 示例问题:
  • “这个数据集中是什么类型的数据?”
  • “显示有错误的示例”
  • “你在输入中看到了什么模式?”
  • “这个数据集中有多少个示例?”

标注队列

Annotation Queues 中,Polly 帮助您在做出标注决策之前分析运行。无论您是单独审查运行还是成对比较它们,Polly 都能提供有关运行行为、错误和执行模式的见解,以指导您的评分。 示例问题:
  • “这次运行出了什么问题?”
  • “总结这次运行中发生的事情”
  • “比较这两次运行”
  • “评分时我应该考虑什么?”

评估器

Evaluators 构建器中,Polly 帮助您编写和完善评估器逻辑。Polly 可以生成评估器代码、建议改进,并帮助您针对示例测试评估器。 示例问题:
  • “编写一个检查幻觉的评估器”
  • “提高这个评估器的准确性”
  • “这个评估器检查什么?”
  • “添加对边缘情况的处理”

下一步

了解更多关于 Polly 帮助您探索的功能:

可观测性

了解更多关于跟踪和监控您的 LLM 应用程序

线程

了解线程在 LangSmith 中如何工作

提示工程

在 Playground 中创建和迭代提示

评估

系统地评估和测试您的应用程序