Skip to main content
LangChain 和 NVIDIA 已合作通过四种机制加速智能体:
  1. 组件
  2. LangGraph 加速原语
  3. NeMo 智能体工具包优化
  4. 全栈蓝图

组件

langchain-nvidia-ai-endpoints 包提供由 NVIDIA AI 驱动的聊天、嵌入、重排序和检索的 LangChain 集成——包括 Nemotron(NVIDIA 为智能体 AI 构建的开放模型系列)以及 NVIDIA API 目录 上的数百个社区模型。 模型在 NVIDIA NIM 微服务上运行:容器镜像公开标准的 OpenAI 兼容 API,并使用 TensorRT-LLM 进行优化,以在 NVIDIA 硬件上实现峰值吞吐量。可以通过托管的 API 目录或本地自托管访问它们。
组件描述
聊天ChatNVIDIA使用任何 NVIDIA 托管模型或本地 NIM 进行聊天补全
聊天 (Dynamo)ChatNVIDIADynamoChatNVIDIA,带有用于 Dynamo 部署的 KV 缓存路由提示
嵌入NVIDIAEmbeddings用于语义搜索和 RAG 的密集向量嵌入
重排序NVIDIARerank按查询相关性对文档进行重排序
检索NVIDIARAGRetriever从 NVIDIA RAG 蓝图服务器检索

聊天:ChatNVIDIA

ChatNVIDIA 提供通过 NVIDIA 托管模型和本地 NIM 部署的聊天补全。它支持工具调用、结构化输出、图像输入和流式传输。

安装

pip install -qU langchain-nvidia-ai-endpoints

访问 NVIDIA API 目录

  1. NVIDIA API 目录 上创建一个免费帐户并登录。
  2. 单击您的个人资料图标,然后选择 API Keys > Generate API Key
  3. 复制密钥并保存为 NVIDIA_API_KEY
import getpass
import os

if os.environ.get("NVIDIA_API_KEY", "").startswith("nvapi-"):
    print("Valid NVIDIA_API_KEY already in environment. Delete to reset")
else:
    nvapi_key = getpass.getpass("NVAPI Key (starts with nvapi-): ")
    assert nvapi_key.startswith(
        "nvapi-"
    ), f"{nvapi_key[:5]}... is not a valid key"
    os.environ["NVIDIA_API_KEY"] = nvapi_key

Nemotron:智能体 AI 的特色模型

Nemotron 是 NVIDIA 为智能体 AI 设计的开放模型系列。这些模型采用混合 Mamba-Transformer 专家混合架构,以高吞吐量和高达 100 万个令牌的上下文窗口支持,提供领先的基准性能。Nemotron 模型权重、训练数据和实现配方在 NVIDIA 开放模型许可下公开发布。
from langchain_nvidia_ai_endpoints import ChatNVIDIA

# Nemotron 3 Super — 高效推理和智能体任务
llm = ChatNVIDIA(model="nvidia/nemotron-3-super-120b-a12b")
result = llm.invoke("Plan a three-step research workflow for competitive analysis.")
print(result.content)
有关完整文档,包括工具调用、多模态输入和 Nemotron 特定示例,请参阅 ChatNVIDIA 集成页面

聊天:ChatNVIDIADynamo

ChatNVIDIADynamoChatNVIDIA 的直接替代品,用于 NVIDIA Dynamo 部署。它会自动将 KV 缓存路由提示注入每个请求,允许 Dynamo 调度器优化内存分配、负载路由和请求优先级。
from langchain_nvidia_ai_endpoints import ChatNVIDIADynamo

llm = ChatNVIDIADynamo(
    base_url="http://localhost:8099/v1",
    model="nvidia/nemotron-3-super-120b-a12b",
    osl=512,             # 预期输出序列长度(令牌)
    iat=250,             # 预期到达间隔时间(毫秒)
    latency_sensitivity=1.0,
    priority=1,
)
result = llm.invoke("Summarize KV cache routing in one sentence.")
print(result.content)
有关完整的 ChatNVIDIADynamo 参考,包括每次调用覆盖和流式传输,请参阅 ChatNVIDIA 集成页面

嵌入:NVIDIAEmbeddings

NVIDIAEmbeddings 生成密集向量嵌入,用于语义搜索和 RAG 流程。
from langchain_nvidia_ai_endpoints import NVIDIAEmbeddings

embedder = NVIDIAEmbeddings(model="NV-Embed-QA")
embedder.embed_query("What's the temperature today?")
有关完整文档,请参阅 NVIDIAEmbeddings 集成页面

重排序:NVIDIARerank

NVIDIARerank 使用 NeMo Retriever 重排序 NIM 根据查询相关性对文档列表进行重排序。
from langchain_core.documents import Document
from langchain_nvidia_ai_endpoints import NVIDIARerank

ranker = NVIDIARerank(model="nvidia/llama-3.2-nv-rerankqa-1b-v1")
docs = ranker.compress_documents(
    query="What is GPU memory bandwidth?",
    documents=[Document(page_content=p) for p in passages],
)

检索:NVIDIARAGRetriever

NVIDIARAGRetriever 将 LangChain 连接到正在运行的 NVIDIA RAG 蓝图 服务器,并通过 /v1/search 端点检索相关文档。它支持重排序、查询重写和元数据过滤。
from langchain_nvidia_ai_endpoints import NVIDIARAGRetriever

retriever = NVIDIARAGRetriever(base_url="http://localhost:8081", k=4)
docs = retriever.invoke("What is NVIDIA NIM?")
有关完整文档,请参阅 NVIDIARAGRetriever 集成页面

使用 NVIDIA NIM 微服务自托管

当您准备好部署 AI 应用程序时,可以使用 NVIDIA NIM 自托管模型。有关更多信息,请参阅 NVIDIA NIM 微服务
from langchain_nvidia_ai_endpoints import ChatNVIDIA, NVIDIAEmbeddings, NVIDIARerank

# 连接到在 localhost:8000 运行的聊天 NIM,指定模型
llm = ChatNVIDIA(base_url="http://localhost:8000/v1", model="nvidia/nemotron-3-super-120b-a12b")

# 连接到在 localhost:8080 运行的嵌入 NIM
embedder = NVIDIAEmbeddings(base_url="http://localhost:8080/v1")

# 连接到在 localhost:2016 运行的重排序 NIM
ranker = NVIDIARerank(base_url="http://localhost:2016/v1")

使用 NVIDIA 加速 LangGraph

langchain-nvidia-langgraph 包为 LangGraph 图提供 NVIDIA 优化的执行策略。它提供两种在编译时应用的互补优化:
  • 并行执行:自动识别独立节点并并发运行,消除不必要的顺序瓶颈。
  • 推测执行:条件边的两个分支同时运行;一旦路由条件解析,错误的分支将被丢弃。
这两种优化都不需要更改节点逻辑或图边。

安装

pip install -qU langchain-nvidia-langgraph

并行执行

将 LangGraph 中的 StateGraph 替换为 langchain_nvidia_langgraph.graph 中的 StateGraph。图定义的其余部分保持不变。
from langchain_nvidia_langgraph.graph import StateGraph, OptimizationConfig
from langgraph.graph import END
from typing import TypedDict

class AgentState(TypedDict):
  ...

graph = StateGraph(AgentState)
app = graph.compile(optimization=OptimizationConfig(enable_parallel=True))
或者包装现有的 StateGraph
from langgraph.graph import StateGraph as LangGraphStateGraph
graph = LangGraphStateGraph(AgentState)
app = with_app_compile(graph).compile(optimization=OptimizationConfig(enable_parallel=True))
装饰器提供对哪些节点参与优化的显式控制:
from langchain_nvidia_langgraph.graph import sequential, depends_on, speculation_unsafe

# 防止节点被并行化(例如,它写入共享状态)
@sequential
def write_to_db(state):
    ...

# 声明图边中未表达的依赖关系
@depends_on("write_to_db")
def next_action(state):
    ...

推测执行

通过编译时的 OptimizationConfig 启用推测。执行器并行运行条件分支,并保留与路由决策匹配的结果。
app = graph.compile(optimization=OptimizationConfig(enable_speculation=True))

使用 LangSmith 遥测的 NeMo 智能体工具包优化

NVIDIA NeMo 智能体工具包是一个开源 AI 工具包,用于构建、分析和优化智能体。开发人员可以使用 LangChain 和 NeMo 智能体工具包,只需最少的代码更改即可启用分析、评估、GPU 容量计划和自动优化。NeMo 智能体工具包与 LangSmith 互操作。

全栈蓝图

NVIDIA 和 LangChain 合作开发了全栈示例,展示了如何将所有这些组件结合用于两个企业用例,重点关注生产就绪性:
  • NVIDIA AI-Q 是一个使用 LangChain Deep Agents 在企业数据源上进行深度研究的蓝图
  • NVIDIA VSS 是一个使用 LangChain 和 LangGraph 进行视频搜索和摘要的蓝图

其他资源