Skip to main content
评估 是衡量 LLM 应用程序性能的一种量化方法。LLM 的行为可能难以预测,即使是对提示、模型或输入的微小改动也可能显著影响结果。评估提供了一种结构化的方式来识别故障、比较版本并构建更可靠的 AI 应用程序。 在 LangSmith 中运行评估需要三个关键组件:
  • 数据集:一组测试输入(以及可选的预期输出)。
  • 目标函数:您想要测试的应用程序部分——这可能是一个使用新提示的单次 LLM 调用、一个模块或您的整个工作流。
  • 评估器:对目标函数输出进行评分的函数。
本快速入门将指导您使用 LangSmith SDK 或 UI 运行一个入门评估,以检查 LLM 响应的正确性。

前提条件

开始之前,请确保您已具备: 选择 UI 或 SDK 过滤器以获取说明:

1. 设置工作区密钥

LangSmith UI 中,确保您的 API 密钥已设置为工作区密钥
  1. 导航至 设置,然后转到 密钥 选项卡。
  2. 选择 添加密钥,输入密钥环境变量(例如,OPENAI_API_KEYANTHROPIC_API_KEY)以及您的 API 密钥作为
  3. 选择 保存密钥
在 LangSmith UI 中添加工作区密钥时,请确保密钥键名与您的模型提供商期望的环境变量名称相匹配。

2. 创建提示

Playground 使得可以针对不同的提示、新的模型运行评估,或测试不同的模型配置。
  1. LangSmith UI 中,点击侧边栏中的 Playground
  2. Prompts 面板下,将 system 提示修改为:
    Answer the following question accurately:
    
    保持 Human 消息不变:{question}

3. 创建数据集

  1. 点击 Set up Evaluation,这将在页面底部打开一个 New Experiment 表格。
  2. Select or create a new dataset 下拉菜单中,点击 + New 按钮以创建新数据集。
    Playground with the edited system prompt and new experiment with the dropdown for creating a new dataset.
  3. 将以下示例添加到数据集中:
    输入参考输出
    question: Which country is Mount Kilimanjaro located in?output: Mount Kilimanjaro is located in Tanzania.
    question: What is Earth’s lowest point?output: Earth’s lowest point is The Dead Sea.
  4. 点击 Save 并输入名称以保存您新创建的数据集。

4. 添加评估器

  1. 点击 + Evaluator 并从 Prebuilt Evaluator 选项中选择 Correctness
  2. Correctness 面板中,点击 Save

5. 运行您的评估

  1. 选择右上角的 Start 来运行您的评估。这将在 New Experiment 表格中创建一个带有预览的 实验。您可以通过点击实验名称来完整查看。
    Full experiment view of the results that used the example dataset.

后续步骤

要了解更多关于在 LangSmith 中运行实验的信息,请阅读评估概念指南