AgentEvals 包中的预构建评估器:
创建评估器
一种常见的评估代理性能的方法是比较其轨迹(调用工具的顺序)与参考轨迹:LLM-as-a-judge
您可以使用 LLM-as-a-judge 评估器,该评估器使用 LLM 来比较轨迹与参考输出,并输出一个分数:运行评估器
要运行一个评估器,您首先需要创建一个 LangSmith 数据集。要使用预构建的 AgentEvals 评估器,您必须有一个具有以下模式的数据集:- input:
{"messages": [...]}输入消息,用于调用代理。 - output:
{"messages": [...]}期望的消息历史,代理输出。对于轨迹评估,您可以选择仅保留助手消息。
Connect these docs to Claude, VSCode, and more via MCP
for real-time answers.

