TruLens 是一个开源包,为大型语言模型(LLM)应用程序提供插桩和评估工具。本页介绍如何使用 TruLens 评估和跟踪基于 LangChain 构建的 LLM 应用程序。
安装与设置
安装trulens-eval Python 包。
快速入门
查看 TruLens 文档 中的集成详情。跟踪
创建 LLM 链之后,您可以使用 TruLens 进行评估和跟踪。 TruLens 提供许多开箱即用的反馈函数, 同时也是一个可扩展的 LLM 评估框架。 创建反馈函数:链
在为 LLM 设置好反馈函数之后,您可以用 TruChain 封装您的应用程序,以获取 LLM 应用程序的详细追踪、日志和评估。 注意:chain 创建的代码请参阅
TruLens 文档。
评估
现在您可以探索您的 LLM 应用程序了! 这样做将帮助您一目了然地了解 LLM 应用程序的性能表现。随着您迭代新版本的 LLM 应用程序,您可以跨所有设置的质量指标比较其性能。您还可以在记录级别查看评估结果,并探索每条记录的链元数据。连接这些文档 到 Claude、VSCode 等,通过 MCP 获取实时答案。

