BM25(维基百科)也称为Okapi BM25,是信息检索系统中用于估计文档与给定搜索查询相关性的排名函数。BM25Retriever检索器使用rank_bm25包。
从文本创建新检索器
从文档创建新检索器
现在你可以用创建的文档创建新的检索器。使用检索器
现在我们可以使用检索器了!预处理函数
向检索器传递自定义预处理函数以改善搜索结果。在单词级别对文本进行分词可以增强检索效果,尤其是在使用 Chroma、Pinecone 或 Faiss 等向量存储处理分块文档时。BM25Plus 变体
-
BM25Retriever还支持 BM25Plus 变体,该变体旨在减少标准 BM25 中对短文档的偏向。 - BM25Plus 确保匹配词总能贡献正分,这对于检索增强生成(RAG)工作流中常用的短文本、段落或分块文档可以改善召回率。
BM25Retriever 使用标准 BM25(BM25Okapi)。BM25Plus 必须明确启用。
示例:使用 BM25Plus
- 短文档或段落
- RAG 系统中的分块文本
- 文档长度差异较大的语料库
通过 MCP 将这些文档连接到 Claude、VSCode 等以获取实时答案。

