NVIDIA

LangChain 和 NVIDIA 已合作通过四种机制加速智能体：

组件
LangGraph 加速原语
NeMo 智能体工具包优化
全栈蓝图

组件

langchain-nvidia-ai-endpoints 包提供由 NVIDIA AI 驱动的聊天、嵌入、重排序和检索的 LangChain 集成——包括 Nemotron（NVIDIA 为智能体 AI 构建的开放模型系列）以及 NVIDIA API 目录上的数百个社区模型。模型在 NVIDIA NIM 微服务上运行：容器镜像公开标准的 OpenAI 兼容 API，并使用 TensorRT-LLM 进行优化，以在 NVIDIA 硬件上实现峰值吞吐量。可以通过托管的 API 目录或本地自托管访问它们。

组件	类	描述
聊天	`ChatNVIDIA`	使用任何 NVIDIA 托管模型或本地 NIM 进行聊天补全
聊天 (Dynamo)	`ChatNVIDIADynamo`	`ChatNVIDIA`，带有用于 Dynamo 部署的 KV 缓存路由提示
嵌入	`NVIDIAEmbeddings`	用于语义搜索和 RAG 的密集向量嵌入
重排序	`NVIDIARerank`	按查询相关性对文档进行重排序
检索	`NVIDIARAGRetriever`	从 NVIDIA RAG 蓝图服务器检索

聊天：ChatNVIDIA

ChatNVIDIA 提供通过 NVIDIA 托管模型和本地 NIM 部署的聊天补全。它支持工具调用、结构化输出、图像输入和流式传输。

安装

pip install -qU langchain-nvidia-ai-endpoints

访问 NVIDIA API 目录

在 NVIDIA API 目录上创建一个免费帐户并登录。
单击您的个人资料图标，然后选择 API Keys > Generate API Key。
复制密钥并保存为 NVIDIA_API_KEY。

import getpass
import os

if os.environ.get("NVIDIA_API_KEY", "").startswith("nvapi-"):
    print("Valid NVIDIA_API_KEY already in environment. Delete to reset")
else:
    nvapi_key = getpass.getpass("NVAPI Key (starts with nvapi-): ")
    assert nvapi_key.startswith(
        "nvapi-"
    ), f"{nvapi_key[:5]}... is not a valid key"
    os.environ["NVIDIA_API_KEY"] = nvapi_key

Nemotron：智能体 AI 的特色模型

Nemotron 是 NVIDIA 为智能体 AI 设计的开放模型系列。这些模型采用混合 Mamba-Transformer 专家混合架构，以高吞吐量和高达 100 万个令牌的上下文窗口支持，提供领先的基准性能。Nemotron 模型权重、训练数据和实现配方在 NVIDIA 开放模型许可下公开发布。

from langchain_nvidia_ai_endpoints import ChatNVIDIA

# Nemotron 3 Super — 高效推理和智能体任务
llm = ChatNVIDIA(model="nvidia/nemotron-3-super-120b-a12b")
result = llm.invoke("Plan a three-step research workflow for competitive analysis.")
print(result.content)

有关完整文档，包括工具调用、多模态输入和 Nemotron 特定示例，请参阅 ChatNVIDIA 集成页面。

聊天：ChatNVIDIADynamo

ChatNVIDIADynamo 是 ChatNVIDIA 的直接替代品，用于 NVIDIA Dynamo 部署。它会自动将 KV 缓存路由提示注入每个请求，允许 Dynamo 调度器优化内存分配、负载路由和请求优先级。

from langchain_nvidia_ai_endpoints import ChatNVIDIADynamo

llm = ChatNVIDIADynamo(
    base_url="http://localhost:8099/v1",
    model="nvidia/nemotron-3-super-120b-a12b",
    osl=512,             # 预期输出序列长度（令牌）
    iat=250,             # 预期到达间隔时间（毫秒）
    latency_sensitivity=1.0,
    priority=1,
)
result = llm.invoke("Summarize KV cache routing in one sentence.")
print(result.content)

有关完整的 ChatNVIDIADynamo 参考，包括每次调用覆盖和流式传输，请参阅 ChatNVIDIA 集成页面。

嵌入：NVIDIAEmbeddings

NVIDIAEmbeddings 生成密集向量嵌入，用于语义搜索和 RAG 流程。

from langchain_nvidia_ai_endpoints import NVIDIAEmbeddings

embedder = NVIDIAEmbeddings(model="NV-Embed-QA")
embedder.embed_query("What's the temperature today?")

有关完整文档，请参阅 NVIDIAEmbeddings 集成页面。

重排序：NVIDIARerank

NVIDIARerank 使用 NeMo Retriever 重排序 NIM 根据查询相关性对文档列表进行重排序。

from langchain_core.documents import Document
from langchain_nvidia_ai_endpoints import NVIDIARerank

ranker = NVIDIARerank(model="nvidia/llama-3.2-nv-rerankqa-1b-v1")
docs = ranker.compress_documents(
    query="What is GPU memory bandwidth?",
    documents=[Document(page_content=p) for p in passages],
)

检索：NVIDIARAGRetriever

NVIDIARAGRetriever 将 LangChain 连接到正在运行的 NVIDIA RAG 蓝图服务器，并通过 /v1/search 端点检索相关文档。它支持重排序、查询重写和元数据过滤。

from langchain_nvidia_ai_endpoints import NVIDIARAGRetriever

retriever = NVIDIARAGRetriever(base_url="http://localhost:8081", k=4)
docs = retriever.invoke("What is NVIDIA NIM?")

有关完整文档，请参阅 NVIDIARAGRetriever 集成页面。

使用 NVIDIA NIM 微服务自托管

当您准备好部署 AI 应用程序时，可以使用 NVIDIA NIM 自托管模型。有关更多信息，请参阅 NVIDIA NIM 微服务。

from langchain_nvidia_ai_endpoints import ChatNVIDIA, NVIDIAEmbeddings, NVIDIARerank

# 连接到在 localhost:8000 运行的聊天 NIM，指定模型
llm = ChatNVIDIA(base_url="http://localhost:8000/v1", model="nvidia/nemotron-3-super-120b-a12b")

# 连接到在 localhost:8080 运行的嵌入 NIM
embedder = NVIDIAEmbeddings(base_url="http://localhost:8080/v1")

# 连接到在 localhost:2016 运行的重排序 NIM
ranker = NVIDIARerank(base_url="http://localhost:2016/v1")

使用 NVIDIA 加速 LangGraph

langchain-nvidia-langgraph 包为 LangGraph 图提供 NVIDIA 优化的执行策略。它提供两种在编译时应用的互补优化：

并行执行：自动识别独立节点并并发运行，消除不必要的顺序瓶颈。
推测执行：条件边的两个分支同时运行；一旦路由条件解析，错误的分支将被丢弃。

这两种优化都不需要更改节点逻辑或图边。

安装

pip install -qU langchain-nvidia-langgraph

并行执行

将 LangGraph 中的 StateGraph 替换为 langchain_nvidia_langgraph.graph 中的 StateGraph。图定义的其余部分保持不变。

from langchain_nvidia_langgraph.graph import StateGraph, OptimizationConfig
from langgraph.graph import END
from typing import TypedDict

class AgentState(TypedDict):
  ...

graph = StateGraph(AgentState)
app = graph.compile(optimization=OptimizationConfig(enable_parallel=True))

或者包装现有的 StateGraph：

from langgraph.graph import StateGraph as LangGraphStateGraph
graph = LangGraphStateGraph(AgentState)
app = with_app_compile(graph).compile(optimization=OptimizationConfig(enable_parallel=True))

装饰器提供对哪些节点参与优化的显式控制：

from langchain_nvidia_langgraph.graph import sequential, depends_on, speculation_unsafe

# 防止节点被并行化（例如，它写入共享状态）
@sequential
def write_to_db(state):
    ...

# 声明图边中未表达的依赖关系
@depends_on("write_to_db")
def next_action(state):
    ...

推测执行

通过编译时的 OptimizationConfig 启用推测。执行器并行运行条件分支，并保留与路由决策匹配的结果。

app = graph.compile(optimization=OptimizationConfig(enable_speculation=True))

使用 LangSmith 遥测的 NeMo 智能体工具包优化

NVIDIA NeMo 智能体工具包是一个开源 AI 工具包，用于构建、分析和优化智能体。开发人员可以使用 LangChain 和 NeMo 智能体工具包，只需最少的代码更改即可启用分析、评估、GPU 容量计划和自动优化。NeMo 智能体工具包与 LangSmith 互操作。

全栈蓝图

NVIDIA 和 LangChain 合作开发了全栈示例，展示了如何将所有这些组件结合用于两个企业用例，重点关注生产就绪性：

NVIDIA AI-Q 是一个使用 LangChain Deep Agents 在企业数据源上进行深度研究的蓝图
NVIDIA VSS 是一个使用 LangChain 和 LangGraph 进行视频搜索和摘要的蓝图

其他资源

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等以获取实时答案。

Popular Providers

Integrations by component

组件

聊天：ChatNVIDIA

安装

访问 NVIDIA API 目录

Nemotron：智能体 AI 的特色模型

聊天：ChatNVIDIADynamo

嵌入：NVIDIAEmbeddings

重排序：NVIDIARerank

检索：NVIDIARAGRetriever

使用 NVIDIA NIM 微服务自托管

使用 NVIDIA 加速 LangGraph

安装

并行执行

推测执行

使用 LangSmith 遥测的 NeMo 智能体工具包优化

全栈蓝图

其他资源

Popular Providers

Integrations by component

​组件

​聊天：ChatNVIDIA

​安装

​访问 NVIDIA API 目录

​Nemotron：智能体 AI 的特色模型

​聊天：ChatNVIDIADynamo

​嵌入：NVIDIAEmbeddings

​重排序：NVIDIARerank

​检索：NVIDIARAGRetriever

​使用 NVIDIA NIM 微服务自托管

​使用 NVIDIA 加速 LangGraph

​安装

​并行执行

​推测执行

​使用 LangSmith 遥测的 NeMo 智能体工具包优化

​全栈蓝图

​其他资源

组件

聊天：ChatNVIDIA

安装

访问 NVIDIA API 目录

Nemotron：智能体 AI 的特色模型

聊天：ChatNVIDIADynamo

嵌入：NVIDIAEmbeddings

重排序：NVIDIARerank

检索：NVIDIARAGRetriever

使用 NVIDIA NIM 微服务自托管

使用 NVIDIA 加速 LangGraph

安装

并行执行

推测执行

使用 LangSmith 遥测的 NeMo 智能体工具包优化

全栈蓝图

其他资源