HuggingFacePipeline 类在本地运行。要使用 OpenVINO 部署模型,可以指定 backend="openvino" 参数以触发 OpenVINO 作为后端推理框架。
使用前,您需要安装带有 OpenVINO Accelerator 的 optimum-intel Python 包。
加载模型
可以使用from_model_id 方法通过指定模型参数来加载模型。
如果您有 Intel GPU,可以指定 model_kwargs={"device": "GPU"} 以在其上运行推理。
optimum-intel pipeline 来加载:
创建链
将模型加载到内存后,可将其与提示词组合形成链。skip_prompt=True 绑定到 LLM。
使用本地 OpenVINO 模型进行推理
可以通过 CLI 将模型导出为 OpenVINO IR 格式,并从本地文件夹加载模型。--weight-format 应用 8 位或 4 位权重量化以降低推理延迟和模型体积:
ov_config 启用,如下所示:
流式传输
您可以使用stream 方法获取 LLM 输出的流式传输:
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

