离线评估
发布前测试在开发过程中,使用精心策划的数据集运行评估,以比较版本、衡量性能并捕获回归问题。
在线评估
生产环境监控实时评估真实用户交互,以检测问题并衡量实时流量的质量。
评估工作流
- 离线评估流程
- 在线评估流程
创建数据集
创建一个数据集,其中包含来自手动策划的测试用例、历史生产跟踪或合成数据生成的。
定义评估器
创建来评分性能:
- 人工审核
- 代码规则
- LLM-as-judge
- 成对比较
运行实验
在数据集上执行您的应用程序,以创建一个。配置重复次数、并发性和缓存以优化运行。
开始使用
评估快速入门
开始使用离线评估。
管理数据集
通过UI或SDK创建和管理用于评估的数据集。
运行离线评估
探索用于全面测试的评估类型、技术和框架。
分析结果
查看和分析评估结果,比较实验,过滤数据并导出发现。
运行在线评估
从“可观测性”选项卡实时监控生产质量。
学习教程
通过分步教程学习,从简单的聊天机器人到复杂的代理评估。
要设置 LangSmith 实例,请访问平台设置部分以选择云、混合或自托管。所有选项均包含可观测性、评估、提示工程和部署。
将这些文档连接到Claude、VSCode等,通过MCP获取实时答案。

