FastEmbed 来自 Qdrant,是一个轻量、快速的 Python 库,专为嵌入生成而构建。
- 量化模型权重
- ONNX Runtime,无 PyTorch 依赖
- CPU 优先设计
- 支持大规模数据集编码的数据并行处理
依赖项
要在 LangChain 中使用 FastEmbed,请安装fastembed Python 包。
导入
实例化 FastEmbed
参数
-
model_name: str(默认值:“BAAI/bge-small-en-v1.5”)要使用的 FastEmbedding 模型名称。您可以在此处找到支持的模型列表。
-
max_length: int(默认值:512)最大 token 数量。超过 512 时行为未知。
-
cache_dir: Optional[str](默认值:None)缓存目录路径。默认为父目录中的
local_cache。 -
threads: Optional[int](默认值:None)单个 onnxruntime 会话可使用的线程数。
-
doc_embed_type: Literal["default", "passage"](默认值:“default”)“default”:使用 FastEmbed 的默认嵌入方法。
“passage”:在嵌入前为文本添加 “passage” 前缀。
-
batch_size: int(默认值:256)编码的批处理大小。值越高,内存占用越多,但速度更快。
-
parallel: Optional[int](默认值:None)若
>1,将使用数据并行编码,推荐用于离线编码大型数据集。 若为0,使用所有可用核心。 若为None,不使用数据并行处理,而使用默认的 onnxruntime 线程策略。
使用方法
生成文档嵌入
生成查询嵌入
通过 MCP 将这些文档连接 到 Claude、VSCode 等,获取实时解答。

