HuggingFacePipeline 类 在本地运行 OpenVINO 模型。要使用 OpenVINO 部署模型,可以指定 backend="openvino" 参数以将 OpenVINO 配置为后端推理框架。
使用前,您需要安装带有 OpenVINO 加速器的 optimum-intel Python 软件包。
模型加载
可以使用from_model_id 方法通过指定模型参数来加载模型。
如果您拥有 Intel GPU,可以指定 model_kwargs={"device": "GPU"} 在其上运行推理。
optimum-intel 管道来加载它们。
创建链
将模型加载到内存后,您可以将其与提示词组合以形成链。skip_prompt=True 绑定到 LLM。
使用本地 OpenVINO 模型进行推理
可以通过 CLI 将模型导出为 OpenVINO IR 格式,并从本地文件夹加载模型。--weight-format 应用 8 位或 4 位权重量化,以降低推理延迟和模型体积:
ov_config 按如下方式启用:
流式传输
您可以使用stream 方法来获取 LLM 输出的流式数据,
连接这些文档 至 Claude、VSCode 等,通过 MCP 获取实时答案。

