- 监控导出状态 和 列出特定导出的运行记录。
- 列出工作区中的所有导出。
- 停止导出。
- 故障模式和重试策略,包括自动重试行为、故障场景、状态生命周期、并发限制和进度跟踪。
- 故障排除失败的导出。
适用于自托管、欧盟 (GCP) 和美国 (AWS) SaaS 版本对于自托管安装、欧盟 (GCP) (
eu.api.smith.langchain.com) 或美国 (AWS) (aws.api.smith.langchain.com),请更新以下请求中的 LangSmith URL。监控导出状态
要监控导出任务的状态,请使用以下 cURL 命令:{export_id} 替换为您要监控的导出的 ID。此命令检索指定导出任务的当前状态。
列出导出的运行记录
一个导出通常被分解为多个运行,每个运行对应要导出的特定日期分区。 要列出与特定导出关联的所有运行,请使用以下 cURL 命令:列出所有导出
要检索所有导出任务的列表,请使用以下 cURL 命令:停止导出
要停止现有的导出,请使用以下 cURL 命令:{export_id} 替换为您希望取消的导出的 ID。请注意,任务一旦取消就无法重新启动,
您需要创建一个新的导出任务。
故障模式和重试策略
LangSmith 批量导出会自动处理瞬时故障和基础设施问题,以确保弹性。 每个批量导出被划分为多个 运行,每个运行处理特定日期分区(通常按天组织)的数据。运行是独立处理的,这使得:- 可以并行处理不同的时间段。
- 每个运行都有独立的重试逻辑。
- 如果中断,可以从特定检查点恢复。
FAILED。
自动重试行为
导出任务会自动重试瞬时故障,行为如下:- 最大重试次数:每个运行最多重试 20 次(可能会更改)。
- 重试延迟:每次尝试间隔 30 秒(固定,无指数退避)。
- 运行超时:每个运行最长 4 小时。
- 整个工作流超时:整个导出最长 72 小时。
故障场景
任何单个运行失败(在所有重试耗尽后)都会导致整个导出失败。
导出状态生命周期
导出可以具有以下状态:| 状态 | 描述 |
|---|---|
CREATED | 导出已创建但尚未开始处理。 |
RUNNING | 导出正在积极处理运行。 |
COMPLETED | 所有运行成功导出。 |
FAILED | 一个或多个运行在重试耗尽后失败。 |
CANCELLED | 导出被用户手动取消。 |
TIMEDOUT | 导出超过 48 小时的工作流超时。 |
CREATED、RUNNING、COMPLETED、FAILED、CANCELLED 或 TIMEDOUT。
并发和速率限制
为确保系统稳定性,导出受以下限制:- 每个导出的最大并发运行数:45
- 每个工作区的最大并发导出数:15
进度跟踪和可恢复性
导出系统为每个运行维护详细的进度元数据:- 数据流中的最新游标位置。
- 已导出的行数。
- 已写入的 Parquet 文件列表。
- 优雅恢复:如果运行中断(例如,由于部署),它将从最后一个检查点恢复,而不是重新开始。
- 进度监控:通过 API 跟踪已导出的数据量。
- 高效重试:失败的运行不会重新导出已成功写入的数据。
故障排除失败的导出
如果您的导出失败,请按照以下步骤操作:- 检查导出状态:使用
GET /api/v1/bulk-exports/{export_id}端点 检索导出详情和状态。 - 查看运行错误:您可以使用列出运行 API 监控您的运行。每个运行包含一个
errors字段,其中包含按重试尝试(例如retry_0、retry_1)键控的详细错误消息。 - 验证目标访问权限:确保您的目标存储桶仍然存在且凭据有效。
- 检查运行大小:如果您看到超时错误,您的日期分区可能包含太多数据。限制导出字段可能会有所帮助。
- 查看系统限制:确保您没有达到并发限制(每个导出 5 个运行,每个工作区 3 个导出)。
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时答案。

