HuggingFacePipeline 类在本地运行 Hugging Face 模型。
Hugging Face Model Hub 托管了超过 12 万个模型、2 万个数据集和 5 万个演示应用(Spaces),所有资源均为开源且公开可用,该在线平台便于人们轻松协作并共同构建机器学习项目。
在 LangChain 中,既可以通过此本地管道包装器调用它们,也可以通过 HuggingFaceHub 类调用其托管的推理端点。
使用前,请确保已安装 transformers Python 软件包 以及 PyTorch。你还可以安装 xformer 以实现更节省内存的注意力机制实现。
模型加载
可以使用from_model_id 方法指定模型参数来加载模型。
transformers 管道来加载它们。
创建链
将模型加载到内存后,你可以将其与提示词组合以形成一条链。skip_prompt=True。
GPU 推理
在配备 GPU 的机器上运行时,你可以指定device=n 参数将模型放置到指定的设备上。
默认值为 -1,表示使用 CPU 进行推理。
如果你拥有多块 GPU 且/或模型过大无法放入单块 GPU,可以指定 device_map="auto",这需要并使用 Accelerate 库来自动确定如何加载模型权重。
注意:不应同时指定 device 和 device_map,否则可能导致意外行为。
批量 GPU 推理
如果在配备 GPU 的设备上运行,你也可以在 GPU 上以批处理模式运行推理。使用 OpenVINO 后端进行推理
要使用 OpenVINO 部署模型,你可以指定backend="openvino" 参数以启用 OpenVINO 作为后端推理框架。
如果你拥有 Intel GPU,可以指定 model_kwargs={"device": "GPU"} 在其上运行推理。
使用本地 OpenVINO 模型进行推理
你可以通过命令行工具将模型导出为 OpenVINO IR 格式,并从本地文件夹加载模型。--weight-format 参数应用 8 位或 4 位权重量化,以降低推理延迟和模型体积:
ov_config 如下启用:
连接这些文档 至 Claude、VSCode 等,通过 MCP 实现实时问答。

