Hugging Face 本地管道集成

可以通过 HuggingFacePipeline 类在本地运行 Hugging Face 模型。 Hugging Face Model Hub 托管了超过 12 万个模型、2 万个数据集和 5 万个演示应用（Spaces），所有资源均为开源且公开可用，该在线平台便于人们轻松协作并共同构建机器学习项目。在 LangChain 中，既可以通过此本地管道包装器调用它们，也可以通过 HuggingFaceHub 类调用其托管的推理端点。使用前，请确保已安装 transformers Python 软件包以及 PyTorch。你还可以安装 xformer 以实现更节省内存的注意力机制实现。

pip install -qU transformers

模型加载

可以使用 from_model_id 方法指定模型参数来加载模型。

from langchain_huggingface.llms import HuggingFacePipeline

hf = HuggingFacePipeline.from_model_id(
    model_id="gpt2",
    task="text-generation",
    pipeline_kwargs={"max_new_tokens": 10},
)

也可以直接传入现有的 transformers 管道来加载它们。

from langchain_huggingface.llms import HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_id = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=10)
hf = HuggingFacePipeline(pipeline=pipe)

创建链

将模型加载到内存后，你可以将其与提示词组合以形成一条链。

from langchain_core.prompts import PromptTemplate

template = """Question: {question}

Answer: Let's think step by step."""
prompt = PromptTemplate.from_template(template)

chain = prompt | hf

question = "What is electroencephalography?"

print(chain.invoke({"question": question}))

若要获取不带提示词的响应，你可以向 LLM 绑定 skip_prompt=True。

chain = prompt | hf.bind(skip_prompt=True)

question = "What is electroencephalography?"

print(chain.invoke({"question": question}))

流式响应。

for chunk in chain.stream(question):
    print(chunk, end="", flush=True)

GPU 推理

在配备 GPU 的机器上运行时，你可以指定 device=n 参数将模型放置到指定的设备上。默认值为 -1，表示使用 CPU 进行推理。如果你拥有多块 GPU 且/或模型过大无法放入单块 GPU，可以指定 device_map="auto"，这需要并使用 Accelerate 库来自动确定如何加载模型权重。注意：不应同时指定 device 和 device_map，否则可能导致意外行为。

gpu_llm = HuggingFacePipeline.from_model_id(
    model_id="gpt2",
    task="text-generation",
    device=0,  # replace with device_map="auto" to use the accelerate library.
    pipeline_kwargs={"max_new_tokens": 10},
)

gpu_chain = prompt | gpu_llm

question = "What is electroencephalography?"

print(gpu_chain.invoke({"question": question}))

批量 GPU 推理

如果在配备 GPU 的设备上运行，你也可以在 GPU 上以批处理模式运行推理。

gpu_llm = HuggingFacePipeline.from_model_id(
    model_id="bigscience/bloom-1b7",
    task="text-generation",
    device=0,  # -1 for CPU
    batch_size=2,  # adjust as needed based on GPU map and model size.
    model_kwargs={"temperature": 0, "max_length": 64},
)

gpu_chain = prompt | gpu_llm.bind(stop=["\n\n"])

questions = []
for i in range(4):
    questions.append({"question": f"What is the number {i} in french?"})

answers = gpu_chain.batch(questions)
for answer in answers:
    print(answer)

使用 OpenVINO 后端进行推理

要使用 OpenVINO 部署模型，你可以指定 backend="openvino" 参数以启用 OpenVINO 作为后端推理框架。如果你拥有 Intel GPU，可以指定 model_kwargs={"device": "GPU"} 在其上运行推理。

pip install -U-strategy eager "optimum[openvino,nncf]" --quiet

ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}

ov_llm = HuggingFacePipeline.from_model_id(
    model_id="gpt2",
    task="text-generation",
    backend="openvino",
    model_kwargs={"device": "CPU", "ov_config": ov_config},
    pipeline_kwargs={"max_new_tokens": 10},
)

ov_chain = prompt | ov_llm

question = "What is electroencephalography?"

print(ov_chain.invoke({"question": question}))

使用本地 OpenVINO 模型进行推理

你可以通过命令行工具将模型导出为 OpenVINO IR 格式，并从本地文件夹加载模型。

!optimum-cli export openvino --model gpt2 ov_model_dir

建议使用 --weight-format 参数应用 8 位或 4 位权重量化，以降低推理延迟和模型体积：

!optimum-cli export openvino --model gpt2  --weight-format int8 ov_model_dir # for 8-bit quantization

!optimum-cli export openvino --model gpt2  --weight-format int4 ov_model_dir # for 4-bit quantization

ov_llm = HuggingFacePipeline.from_model_id(
    model_id="ov_model_dir",
    task="text-generation",
    backend="openvino",
    model_kwargs={"device": "CPU", "ov_config": ov_config},
    pipeline_kwargs={"max_new_tokens": 10},
)

ov_chain = prompt | ov_llm

question = "What is electroencephalography?"

print(ov_chain.invoke({"question": question}))

你可以通过激活值的动态量化和 KV 缓存量化获得额外的推理速度提升。这些选项可以通过 ov_config 如下启用：

ov_config = {
    "KV_CACHE_PRECISION": "u8",
    "DYNAMIC_QUANTIZATION_GROUP_SIZE": "32",
    "PERFORMANCE_HINT": "LATENCY",
    "NUM_STREAMS": "1",
    "CACHE_DIR": "",
}

更多信息请参阅 OpenVINO LLM 指南和 OpenVINO 本地管道笔记本。

在 GitHub 上编辑此页面或提交问题。

连接这些文档至 Claude、VSCode 等，通过 MCP 实现实时问答。

Popular Providers

Integrations by component

Hugging Face 本地管道集成

模型加载

创建链

GPU 推理

批量 GPU 推理

使用 OpenVINO 后端进行推理

使用本地 OpenVINO 模型进行推理

Popular Providers

Integrations by component

​模型加载

​创建链

​GPU 推理

​批量 GPU 推理

​使用 OpenVINO 后端进行推理

​使用本地 OpenVINO 模型进行推理

模型加载

创建链

GPU 推理

批量 GPU 推理

使用 OpenVINO 后端进行推理

使用本地 OpenVINO 模型进行推理