openevals 包集成,提供了一套评估工具和提示,你可以将其作为评估的起点。
本操作指南将演示如何设置和运行一种类型的评估器(LLM 作为评判者)。有关完整的评估工具和提示列表及使用示例,请参阅 openevals 和 agentevals 仓库。
设置
你需要安装openevals 包才能使用 LLM 作为评判者的评估器。
openevals 也能与 evaluate 方法无缝集成。有关设置说明,请参阅相应的指南。
运行评估器
一般流程很简单:从openevals 导入评估器或工厂函数,然后在你的测试文件中使用输入、输出和参考输出来运行它。LangSmith 会自动将评估器的结果记录为反馈。
请注意,并非所有评估器都需要每个参数(例如,精确匹配评估器只需要输出和参考输出)。此外,如果你的 LLM 作为评判者的提示需要额外的变量,将它们作为关键字参数传递会将它们格式化到提示中。
按如下方式设置你的测试文件:
feedback_key/feedbackKey 参数将用作你实验中反馈的名称。
在终端中运行评估将产生类似以下的结果:

evaluate 方法。如果使用 Python,这需要 langsmith>=0.3.11:
将这些文档通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

