- 初始设置步骤,用于部署到 EKS、配置托管服务和设置身份验证。
- AWS 特定的架构模式 和参考图表。
- 服务建议 和最佳实践。
- AWS Well-Architected 最佳实践,涵盖卓越运营、安全性和可靠性。
LangChain 提供专门用于 AWS 的 Terraform 模块,以帮助为 LangSmith 配置基础设施。这些模块可以快速设置 EKS 集群、RDS、ElastiCache、S3 和网络资源。查看 AWS Terraform 模块 以获取文档和示例。
初始设置
部署到 Kubernetes
遵循 Kubernetes 安装指南。LangSmith 已在 Amazon Elastic Kubernetes Service (EKS) 上进行测试。EKS 特定注意事项:
- 确保已安装 EBS CSI 驱动程序以用于持久化存储
- 使用
ebs.csi.aws.com存储类配置器
配置外部服务
对于生产部署,请连接到 AWS 托管服务:
Amazon S3
将跟踪数据存储在 S3 中
Amazon RDS
PostgreSQL 数据库
Amazon ElastiCache
用于缓存的 Redis 或 Valkey
ClickHouse Cloud
分析数据库
设置身份验证
使用 IAM Roles for Service Accounts (IRSA) 来认证 LangSmith Pod 访问 AWS 服务,无需静态凭证。关键页面:
参考架构
我们建议利用 AWS 的托管服务来提供一个可扩展、安全且有弹性的平台。以下架构适用于自托管和混合模式,并符合 AWS Well-Architected 框架:
- 入口与网络:请求通过 Amazon Application Load Balancer (ALB) 进入您的 VPC,使用 AWS WAF 和基于 IAM 的身份验证进行保护。
- 前端与后端服务: 容器运行在 Amazon EKS 上,在 ALB 后进行编排。根据需要将请求路由到集群内的其他服务。
-
存储与数据库:
- Amazon RDS for PostgreSQL 或 Aurora:元数据、项目、用户以及已部署代理的短期和长期记忆。LangSmith 支持 PostgreSQL 14 或更高版本。
- Amazon ElastiCache (Redis 或 Valkey):缓存和作业队列。ElastiCache 可以是单实例或集群模式。LangSmith 需要 Redis OSS 5 或更高版本,或 Valkey 8。
- ClickHouse + Amazon EBS:分析和跟踪存储。
- 除非安全或合规性原因阻止,否则我们建议使用 外部托管的 ClickHouse 解决方案。
- 混合部署不需要 ClickHouse。
- Amazon S3:用于跟踪工件和遥测的对象存储。
- LLM 集成: 可选地将请求代理到 Amazon Bedrock 或 Amazon SageMaker 进行 LLM 推理。
- 监控与可观测性: 与 Amazon CloudWatch 集成
计算选项
LangSmith 根据您的需求支持多种计算选项:| 计算选项 | 描述 | 适用场景 |
|---|---|---|
| Elastic Kubernetes Service(首选) | 高级扩展和多租户支持 | 大型企业 |
| 基于 EC2 | 完全控制,自带基础设施 | 受监管或气隙环境 |
AWS Well-Architected 最佳实践
此参考旨在与 AWS Well-Architected 框架的六大支柱保持一致:卓越运营
- 使用 IaC(CloudFormation / Terraform)自动化部署。
- 使用 AWS Systems Manager Parameter Store 进行配置。
- 配置您的 LangSmith 实例以 导出遥测数据,并通过 CloudWatch Logs 持续监控。
- 管理 LangSmith 部署 的首选方法是创建一个 CI 流程,该流程构建 Agent Server 镜像并将其推送到 ECR。在将新版本部署到暂存或生产环境之前,为拉取请求创建测试部署。
安全性
- 使用具有最小权限策略的 IAM 角色。
- 启用静态加密(RDS、S3、ClickHouse 卷)和传输中加密(TLS 1.2+)。
- 与 AWS Secrets Manager 集成以管理凭证。
- 使用 Amazon Cognito 作为身份提供商,结合 LangSmith 内置的身份验证和授权功能,以保护对代理及其工具的访问。
可靠性
- 跨区域复制 LangSmith 数据平面:为 LangSmith Deployment 在不同区域的 Kubernetes 集群部署相同的数据平面。跨 Multi-AZ 部署 RDS 和 ECS 服务。
- 为后端工作程序实施 自动扩展。
- 使用 Amazon Route 53 健康检查和故障转移策略。
性能效率
- 利用 EC2 实例进行优化计算。
- 对不经常访问的跟踪数据使用 S3 Intelligent-Tiering。
成本优化
- 使用 Compute Savings Plans 对 EKS 集群进行合理规模调整。
- 使用 AWS Cost Explorer 仪表板监控成本 KPI。
可持续性
- 使用按需计算最小化空闲工作负载。
- 将遥测数据存储在低延迟、低成本的层级中。
- 为非生产环境启用自动关闭。
安全与合规
LangSmith 可配置为:- 仅通过 PrivateLink 访问(无公共互联网暴露,计费所需的出站流量除外)。
- 使用基于 KMS 的加密密钥保护 S3、RDS 和 EBS。
- 将审计日志记录到 CloudWatch 和 AWS CloudTrail。
监控与评估
使用 LangSmith 来:- 捕获在 Bedrock 或 SageMaker 上运行的 LLM 应用的跟踪。
- 通过 LangSmith 数据集 评估模型输出。
- 跟踪延迟、令牌使用量和成功率。
- AWS CloudWatch 仪表板。
- OpenTelemetry 和 Prometheus 导出器。
将这些文档 通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

