HuggingFacePipeline 类在本地运行。要使用 OpenVINO 部署模型,您可以指定 backend="openvino" 参数,以触发 OpenVINO 作为后端推理框架。
要使用,您应该安装带有 OpenVINO 加速器的 optimum-intel Python 包。
模型加载
可以通过使用from_model_id 方法指定模型参数来加载模型。
如果您有英特尔 GPU,可以指定 model_kwargs={"device": "GPU"} 以在其上运行推理。
optimum-intel 管道来加载模型。
创建链
模型加载到内存后,您可以将其与提示组合以形成链。skip_prompt=True 与 LLM 绑定。
使用本地 OpenVINO 模型进行推理
可以使用 CLI 导出您的模型到 OpenVINO IR 格式,并从本地文件夹加载模型。--weight-format 应用 8 位或 4 位权重量化,以减少推理延迟和模型占用空间:
ov_config 启用,如下所示:
流式传输
您可以使用stream 方法获取 LLM 输出的流式传输,
将这些文档通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

