CTranslate2 是一个用于 Transformer 模型高效推理的 C++ 和 Python 库。 该项目实现了一个自定义运行时,应用了权重量化、层融合、批量重排序等多种性能优化技术,以加速 CPU 和 GPU 上 Transformer 模型的推理并降低内存使用。 功能完整列表和支持的模型可在项目仓库中找到。首先,请查阅官方快速入门指南。
安装与设置
安装 Python 包:LLM
查看使用示例。通过 MCP 将这些文档连接到 Claude、VSCode 等,获取实时答案。
使用 LangChain Python 集成 Ctranslate2。
CTranslate2 是一个用于 Transformer 模型高效推理的 C++ 和 Python 库。 该项目实现了一个自定义运行时,应用了权重量化、层融合、批量重排序等多种性能优化技术,以加速 CPU 和 GPU 上 Transformer 模型的推理并降低内存使用。 功能完整列表和支持的模型可在项目仓库中找到。首先,请查阅官方快速入门指南。