Hugging Face Hub 是一个拥有超过 12 万个模型、2 万个数据集和 5 万个演示应用(Spaces)的平台,所有内容均为开源且公开可用。这是一个在线平台,人们可以在此轻松协作并共同构建机器学习应用。
Hugging Face Hub 还提供各种端点来构建机器学习应用。
本示例展示了如何连接到不同的端点类型。
特别是,文本生成推理由 文本生成推理 提供支持:这是一个定制的 Rust、Python 和 gRPC 服务器,用于实现极速文本生成推理。
安装与设置
要使用,您应该已安装huggingface_hub Python 包。
准备示例
示例
这是一个如何访问服务器端 推理提供商 API 的HuggingFaceEndpoint 集成的示例。
专用端点
免费的无服务器 API 让您可以快速实现解决方案并进行迭代,但对于重度使用场景,它可能会受到速率限制,因为负载是与其他请求共享的。 对于企业工作负载,最好使用 推理端点 - 专用。 这提供了完全托管的基础设施,提供更大的灵活性和速度。这些资源附带持续支持和正常运行时间保证,以及自动扩展等选项。流式传输
HuggingFaceEndpoint 类也可以与本地 HuggingFace TGI 实例 一起使用来提供 LLM 服务。有关各种硬件(GPU、TPU、Gaudi…)支持的详细信息,请查看 TGI 仓库。
将这些文档 通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

