UpTrain [github || website || docs] 是一个开源平台,用于评估和改进 LLM 应用。它为 20 多项预配置检查(涵盖语言、代码、嵌入等使用场景)提供评分,对失败案例进行根因分析,并提供解决指导。
UpTrain 回调处理器
本笔记本展示了 UpTrain 回调处理器如何无缝集成到你的管道中,支持多种评估。我们选择了一些适合评估链的评估指标,这些评估会自动运行,结果显示在输出中。更多 UpTrain 评估详情请参见此处。 以下 LangChain 检索器被选为演示示例:1. 原始 RAG
RAG 在检索上下文和生成回复中发挥关键作用。为确保其性能和回复质量,我们进行以下评估:2. 多查询生成
MultiQueryRetriever 用于解决 RAG 管道可能无法基于查询返回最佳文档集的问题。它会生成与原始问题含义相似的多个查询变体,然后分别检索文档。鉴于其复杂性,我们在之前评估的基础上增加:- 多查询准确性:确保生成的多查询与原始查询含义相同。
3. 上下文压缩与重排序
重排序是根据与查询的相关性对节点重新排序并选取前 n 个节点的过程。由于重排序完成后节点数量可能减少,我们进行以下评估: 这些评估共同确保了链中 RAG、MultiQueryRetriever 和重排序过程的稳健性和有效性。安装依赖
faiss-gpu 代替 faiss-cpu。
导入库
加载文档
将文档分割为块
创建检索器
定义 LLM
设置
UpTrain 为你提供:- 具有高级钻取和过滤选项的仪表板
- 失败案例的洞察和常见主题分析
- 生产数据的可观测性和实时监控
- 通过与 CI/CD 管道无缝集成进行回归测试
1. UpTrain 开源软件(OSS)
你可以使用开源评估服务来评估你的模型。在这种情况下,你需要提供 OpenAI API 密钥。UpTrain 使用 GPT 模型来评估 LLM 生成的回复。你可以在此处获取你的密钥。 要在 UpTrain 仪表板中查看评估结果,你需要在终端中运行以下命令进行设置:http://localhost:3000/dashboard 访问。
参数:
- key_type=“openai”
- api_key=“OPENAI_API_KEY”
- project_name=“PROJECT_NAME”
2. UpTrain 托管服务与仪表板
或者,你可以使用 UpTrain 的托管服务来评估你的模型。你可以在此处创建免费的 UpTrain 账号并获取免费试用额度。如果需要更多试用额度,可以在此预约与 UpTrain 维护者的通话。 使用托管服务的优势:- 无需在本地机器上设置 UpTrain 仪表板。
- 无需 API 密钥即可访问多种 LLM。
https://dashboard.uptrain.ai/dashboard 中查看结果。
参数:
- key_type=“uptrain”
- api_key=“UPTRAIN_API_KEY”
- project_name=“PROJECT_NAME”
project_name 将是 UpTrain 仪表板中显示评估结果的项目名称。
设置 API 密钥
笔记本将提示你输入 API 密钥。你可以通过修改下方单元格中的key_type 参数,在 OpenAI API 密钥和 UpTrain API 密钥之间切换。
1. 原始 RAG
UpTrain 回调处理器将在生成后自动捕获查询、上下文和回复,并对回复进行以下三项评估(评分范围 0 到 1):2. 多查询生成
MultiQueryRetriever 用于解决 RAG 管道可能无法基于查询返回最佳文档集的问题。它会生成与原始问题含义相似的多个查询,然后为每个查询检索文档。 为评估此检索器,UpTrain 将运行以下评估:- 多查询准确性:检查生成的多查询是否与原始查询含义相同。
3. 上下文压缩与重排序
重排序过程涉及根据与查询的相关性对节点重新排序并选取前 n 个节点。由于重排序完成后节点数量可能减少,我们进行以下评估:UpTrain 仪表板与洞察
以下是展示仪表板和洞察功能的简短视频:
将这些文档连接 到 Claude、VSCode 等,通过 MCP 获取实时解答。

