LangSmith 评估 - Docs by LangChain

LangSmith 支持两种类型的评估，基于它们运行的时间和位置：

离线评估

发布前测试在开发过程中，使用精心策划的数据集运行评估，以比较版本、衡量性能并捕获回归问题。

生产环境监控实时评估真实用户交互，以检测问题并衡量实时流量的质量。

创建数据集

创建一个数据集，其中包含来自手动策划的测试用例、历史生产跟踪或合成数据生成的。

定义评估器

创建来评分性能：

运行实验

在数据集上执行您的应用程序，以创建一个。配置重复次数、并发性和缓存以优化运行。

分析结果

有关离线评估和在线评估之间差异的更多信息，请参阅评估概念页面。

开始使用离线评估。

通过UI或SDK创建和管理用于评估的数据集。

探索用于全面测试的评估类型、技术和框架。

查看和分析评估结果，比较实验，过滤数据并导出发现。

从“可观测性”选项卡实时监控生产质量。

通过分步教程学习，从简单的聊天机器人到复杂的代理评估。

要设置 LangSmith 实例，请访问平台设置部分以选择云、混合或自托管。所有选项均包含可观测性、评估、提示工程和部署。

将这些文档连接到Claude、VSCode等，通过MCP获取实时答案。