- 初始设置步骤,用于部署到 GKE、配置托管服务和设置身份验证。
- GCP 特定的架构模式 和参考图。
- 服务建议 和最佳实践。
- Google Cloud Well-Architected 最佳实践,涵盖卓越运营、安全性和可靠性。
LangChain 提供专门针对 GCP 的 Terraform 模块,以帮助为 LangSmith 配置基础设施。这些模块可以快速设置 GKE 集群、Cloud SQL、Memorystore Redis、Cloud Storage 和网络资源。查看 GCP Terraform 模块 以获取文档和示例。
初始设置
部署到 Kubernetes
按照 Kubernetes 安装指南 操作。LangSmith 已在 Google Kubernetes Engine (GKE) 上进行测试。GKE 特定说明:
- LangSmith 适用于标准 GKE 集群
- 使用 GCE 持久盘存储类
配置外部服务
对于生产部署,请连接到 GCP 托管服务:
Google Cloud Storage
将跟踪数据存储在 GCS 中
Cloud SQL
PostgreSQL 数据库
Memorystore
用于缓存的 Redis 或 Valkey
ClickHouse Cloud
分析数据库
设置身份验证
使用 Workload Identity 让 LangSmith Pod 向 GCP 服务进行身份验证。关键页面:
参考架构
我们建议利用 GCP 的托管服务来提供一个可扩展、安全且有弹性的平台。以下架构适用于自托管和混合模式,并符合 Google Cloud Well-Architected Framework:
- 入口与网络:请求通过您 VPC 内的 Cloud Load Balancing 进入,使用 Cloud Armor 和基于 IAM 的身份验证进行保护。
- 前端和后端服务: 容器运行在 Google Kubernetes Engine (GKE) 上,在负载均衡器后进行编排。根据需要将请求路由到集群内的其他服务。
-
存储和数据库:
- Cloud SQL for PostgreSQL:元数据、项目、用户以及已部署代理的短期和长期记忆。LangSmith 支持 PostgreSQL 14 或更高版本。
- Memorystore (Redis 或 Valkey):缓存和作业队列。Memorystore 可以是单实例或集群模式。LangSmith 需要 Redis OSS 5 或更高版本,或 Valkey 8。
- ClickHouse + 持久盘:分析和跟踪存储。
- 除非安全或合规性原因阻止,否则我们建议使用 外部管理的 ClickHouse 解决方案。
- 混合部署不需要 ClickHouse。
- Cloud Storage:用于跟踪工件和遥测的对象存储。
- LLM 集成: 可选地将请求代理到 Vertex AI 进行 LLM 推理。
- 监控与可观测性: 与 Cloud Monitoring 和 Cloud Logging 集成。
计算选项
LangSmith 支持多种计算选项,具体取决于您的需求:| 计算选项 | 描述 | 适用场景 |
|---|---|---|
| Google Kubernetes Engine(首选) | 高级扩展和多租户支持 | 大型企业 |
| 基于 Compute Engine | 完全控制,自带基础设施 | 受监管或气隙环境 |
Google Cloud Well-Architected 最佳实践
本参考旨在与 Google Cloud Well-Architected Framework 的六大支柱保持一致:卓越运营
- 使用 IaC(Terraform / Deployment Manager)自动化部署。
- 使用 Secret Manager 管理配置和敏感数据。
- 配置您的 LangSmith 实例以 导出遥测数据,并通过 Cloud Logging 持续监控。
- 管理 LangSmith 部署 的首选方法是创建一个 CI 流程,该流程构建 Agent Server 镜像并将其推送到 Artifact Registry。在将新版本部署到暂存或生产环境之前,为拉取请求创建测试部署。
安全性
- 使用具有最小权限策略的 IAM 角色和 Workload Identity 进行安全的 Pod 到 GCP 服务的身份验证。
- 启用静态加密(Cloud SQL、Cloud Storage、持久盘)和传输中加密(TLS 1.2+)。
- 与 Secret Manager 集成以管理凭证。
- 使用 Identity Platform 或 Workload Identity Federation 作为 IDP,结合 LangSmith 的内置身份验证和授权功能,以保护对代理及其工具的访问。
可靠性
- 跨区域复制 LangSmith 数据平面:在不同区域的 Kubernetes 集群中部署相同的数据平面用于 LangSmith Deployment。跨多个可用区部署 Cloud SQL 和 GKE 服务。
- 使用 Horizontal Pod Autoscaler 和 Cluster Autoscaler 为后端工作程序实现 自动扩展。
- 使用 Cloud DNS 健康检查和故障转移策略。
性能优化
- 利用 Compute Engine 实例,通过 机器类型选择 实现优化计算。
- 对不常访问的跟踪数据使用 Cloud Storage 生命周期策略,将其移动到 Nearline 或 Coldline 存储类别。
成本优化
- 使用 承诺使用折扣 和 持续使用折扣 对 GKE 集群进行合理规模调整。
- 使用 Cloud Billing 仪表板和 Cost Management 工具监控成本 KPI。
可持续性
- 通过按需计算和 自动扩展 最小化空闲工作负载。
- 使用 Cloud Storage 生命周期策略 将遥测数据存储在低延迟、低成本的层级中。
- 使用 计划操作 为非生产环境启用自动关闭。
安全与合规
LangSmith 可配置为:- 仅通过 Private Service Connect 访问(无公共互联网暴露,计费所需的出站流量除外)。
- 基于 Cloud KMS 的加密密钥,用于 Cloud Storage、Cloud SQL 和持久盘。
- 审计日志记录到 Cloud Logging 和 Cloud Audit Logs。
监控与评估
使用 LangSmith 来:- 捕获在 Vertex AI 上运行的 LLM 应用的跟踪。
- 通过 LangSmith 数据集 评估模型输出。
- 跟踪延迟、令牌使用量和成功率。
- Cloud Monitoring 仪表板。
- OpenTelemetry 和 Prometheus 导出器。
将这些文档 通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

