Skip to main content
TrueFoundry 提供企业级 AI 网关,为 LangChain 等代理框架提供治理和可观测性。TrueFoundry AI 网关作为 LLM 访问的统一接口,提供:
  • 统一 API 访问:通过一个 API 连接到 250 多个 LLM(OpenAI、Claude、Gemini、Groq、Mistral)
  • 低延迟:内部延迟低于 3ms,具备智能路由和负载均衡
  • 企业安全:SOC 2、HIPAA、GDPR 合规,具备 RBAC 和审计日志
  • 配额和成本管理:基于 Token 的配额、速率限制和全面的使用跟踪
  • 可观测性:完整的请求/响应日志、指标和追踪,支持自定义保留策略

前提条件

在将 LangChain 与 TrueFoundry 集成之前,请确保您已准备:
  1. TrueFoundry 账户:一个已配置至少一个模型提供商的 TrueFoundry 账户。请按照此处的快速入门指南操作
  2. 个人访问令牌:按照 TrueFoundry 令牌生成指南生成令牌

快速入门

您可以通过 ChatOpenAI 接口连接到 TrueFoundry 的统一 LLM 网关。
  • base_url 设置为您的 TrueFoundry 端点(如下所述)
  • api_key 设置为您的 TrueFoundry PAT(个人访问令牌)
  • 使用与统一代码片段中显示的相同 model-name

安装

pip install langchain-openai

基本设置

通过更新 LangChain 中的 ChatOpenAI 模型连接到 TrueFoundry:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    api_key=TRUEFOUNDRY_API_KEY,
    base_url=TRUEFOUNDRY_GATEWAY_BASE_URL,
    model="openai-main/gpt-4.1"  # Similarly you can call any model from any model provider
)

llm.invoke("What is the meaning of life, universe and everything?")
请求通过您的 TrueFoundry 网关路由到指定的模型提供商。TrueFoundry 自动处理速率限制、负载均衡和可观测性。

LangGraph 集成

from langchain_openai import ChatOpenAI
from langgraph.graph import StateGraph, MessagesState
from langchain.messages import HumanMessage

# Define your LangGraph workflow
def call_model(state: MessagesState):
    model = ChatOpenAI(
        api_key=TRUEFOUNDRY_API_KEY,
        base_url=TRUEFOUNDRY_GATEWAY_BASE_URL,
        # Copy the exact model name from gateway
        model="openai-main/gpt-4.1"
    )
    response = model.invoke(state["messages"])
    return {"messages": [response]}

# Build workflow
workflow = StateGraph(MessagesState)
workflow.add_node("agent", call_model)
workflow.set_entry_point("agent")
workflow.set_finish_point("agent")

app = workflow.compile()

# Run agent through TrueFoundry
result = app.invoke({"messages": [HumanMessage(content="Hello!")]})

可观测性与治理

通过指标仪表板,您可以监控和分析:
  • 性能指标:跟踪关键延迟指标,如请求延迟、首字时延(TTFS)和令牌间延迟(ITL),包含 P99、P90 和 P50 百分位
  • 成本与令牌使用:通过每个模型的输入/输出令牌详细分解及相关费用,深入了解应用程序成本
  • 使用模式:通过用户活动、模型分布和基于团队的使用情况详细分析,了解应用程序的使用方式
  • 速率限制与负载均衡:配置限制、跨模型分配流量并设置回退策略

支持

如有问题、问题或支持需求: