组件
langchain-nvidia-ai-endpoints 包提供由 NVIDIA AI 驱动的聊天、嵌入、重排序和检索的 LangChain 集成——包括 Nemotron(NVIDIA 为智能体 AI 构建的开放模型系列)以及 NVIDIA API 目录 上的数百个社区模型。
模型在 NVIDIA NIM 微服务上运行:容器镜像公开标准的 OpenAI 兼容 API,并使用 TensorRT-LLM 进行优化,以在 NVIDIA 硬件上实现峰值吞吐量。可以通过托管的 API 目录或本地自托管访问它们。
| 组件 | 类 | 描述 |
|---|---|---|
| 聊天 | ChatNVIDIA | 使用任何 NVIDIA 托管模型或本地 NIM 进行聊天补全 |
| 聊天 (Dynamo) | ChatNVIDIADynamo | ChatNVIDIA,带有用于 Dynamo 部署的 KV 缓存路由提示 |
| 嵌入 | NVIDIAEmbeddings | 用于语义搜索和 RAG 的密集向量嵌入 |
| 重排序 | NVIDIARerank | 按查询相关性对文档进行重排序 |
| 检索 | NVIDIARAGRetriever | 从 NVIDIA RAG 蓝图服务器检索 |
聊天:ChatNVIDIA
ChatNVIDIA 提供通过 NVIDIA 托管模型和本地 NIM 部署的聊天补全。它支持工具调用、结构化输出、图像输入和流式传输。
安装
访问 NVIDIA API 目录
- 在 NVIDIA API 目录 上创建一个免费帐户并登录。
- 单击您的个人资料图标,然后选择 API Keys > Generate API Key。
- 复制密钥并保存为
NVIDIA_API_KEY。
Nemotron:智能体 AI 的特色模型
Nemotron 是 NVIDIA 为智能体 AI 设计的开放模型系列。这些模型采用混合 Mamba-Transformer 专家混合架构,以高吞吐量和高达 100 万个令牌的上下文窗口支持,提供领先的基准性能。Nemotron 模型权重、训练数据和实现配方在 NVIDIA 开放模型许可下公开发布。ChatNVIDIA 集成页面。
聊天:ChatNVIDIADynamo
ChatNVIDIADynamo 是 ChatNVIDIA 的直接替代品,用于 NVIDIA Dynamo 部署。它会自动将 KV 缓存路由提示注入每个请求,允许 Dynamo 调度器优化内存分配、负载路由和请求优先级。
ChatNVIDIADynamo 参考,包括每次调用覆盖和流式传输,请参阅 ChatNVIDIA 集成页面。
嵌入:NVIDIAEmbeddings
NVIDIAEmbeddings 生成密集向量嵌入,用于语义搜索和 RAG 流程。
NVIDIAEmbeddings 集成页面。
重排序:NVIDIARerank
NVIDIARerank 使用 NeMo Retriever 重排序 NIM 根据查询相关性对文档列表进行重排序。
检索:NVIDIARAGRetriever
NVIDIARAGRetriever 将 LangChain 连接到正在运行的 NVIDIA RAG 蓝图 服务器,并通过 /v1/search 端点检索相关文档。它支持重排序、查询重写和元数据过滤。
NVIDIARAGRetriever 集成页面。
使用 NVIDIA NIM 微服务自托管
当您准备好部署 AI 应用程序时,可以使用 NVIDIA NIM 自托管模型。有关更多信息,请参阅 NVIDIA NIM 微服务。使用 NVIDIA 加速 LangGraph
langchain-nvidia-langgraph 包为 LangGraph 图提供 NVIDIA 优化的执行策略。它提供两种在编译时应用的互补优化:
- 并行执行:自动识别独立节点并并发运行,消除不必要的顺序瓶颈。
- 推测执行:条件边的两个分支同时运行;一旦路由条件解析,错误的分支将被丢弃。
安装
并行执行
将 LangGraph 中的StateGraph 替换为 langchain_nvidia_langgraph.graph 中的 StateGraph。图定义的其余部分保持不变。
StateGraph:
推测执行
通过编译时的OptimizationConfig 启用推测。执行器并行运行条件分支,并保留与路由决策匹配的结果。
使用 LangSmith 遥测的 NeMo 智能体工具包优化
NVIDIA NeMo 智能体工具包是一个开源 AI 工具包,用于构建、分析和优化智能体。开发人员可以使用 LangChain 和 NeMo 智能体工具包,只需最少的代码更改即可启用分析、评估、GPU 容量计划和自动优化。NeMo 智能体工具包与 LangSmith 互操作。全栈蓝图
NVIDIA 和 LangChain 合作开发了全栈示例,展示了如何将所有这些组件结合用于两个企业用例,重点关注生产就绪性:- NVIDIA AI-Q 是一个使用 LangChain Deep Agents 在企业数据源上进行深度研究的蓝图
- NVIDIA VSS 是一个使用 LangChain 和 LangGraph 进行视频搜索和摘要的蓝图
其他资源
langchain-nvidia-ai-endpoints包 READMElangchain-nvidia-langgraph包- Nemotron 模型系列
- NVIDIA NIM 大型语言模型 (LLM) 概述
- NeMo Retriever 嵌入 NIM 概述
- NeMo Retriever 重排序 NIM 概述
ChatNVIDIA模型NVIDIAEmbeddingsRAG 工作流模型NVIDIARAGRetriever- NVIDIA Dynamo
通过 MCP 将这些文档连接到 Claude、VSCode 等 以获取实时答案。

