Hugging Face Hub 是一个拥有超过 12 万个模型、2 万个数据集和 5 万个演示应用(Spaces)的平台,所有内容均为开源且公开可用,人们可以在此轻松协作,共同构建机器学习项目。
Hugging Face Hub 还提供多种端点,用于构建机器学习应用。
本示例展示了如何连接到不同类型的端点。
其中,文本生成推理由 Text Generation Inference 提供支持:这是一个专为极速文本生成推理而构建的自定义 Rust、Python 和 gRPC 服务器。
安装与设置
使用前,您需要安装huggingface_hub Python 包。
准备示例
示例
以下是如何访问无服务器 推理提供商 API 的HuggingFaceEndpoint 集成的示例。
专用端点
免费的无服务器 API 可让您快速实现方案并迭代,但对于高负载场景可能会受到速率限制,因为负载与其他请求共享。 对于企业级工作负载,最佳选择是使用 Inference Endpoints - Dedicated。 这提供了对完全托管基础设施的访问,可提供更大的灵活性和更快的速度。这些资源配备持续支持和正常运行时间保障,以及 AutoScaling 等选项。流式传输
HuggingFaceEndpoint 类也可与本地 HuggingFace TGI 实例配合使用,以提供 LLM 服务。请查看 TGI 仓库,了解各种硬件(GPU、TPU、Gaudi 等)的支持详情。
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时解答。

