概述
本教程将使您熟悉 LangChain 的文档加载器、嵌入和向量存储抽象。这些抽象旨在支持从(向量)数据库和其他来源检索数据,以便与 LLM 工作流集成。对于需要获取数据以作为模型推理一部分进行推理的应用程序(例如检索增强生成或 RAG)来说,它们非常重要。 在这里,我们将构建一个针对 PDF 文档的搜索引擎。这将使我们能够检索 PDF 中与输入查询相似的段落。该指南还包括在搜索引擎之上实现一个最小化的 RAG。概念
本指南侧重于文本数据的检索。我们将涵盖以下概念:设置
安装
本教程需要langchain-community 和 pypdf 包:
LangSmith
您使用 LangChain 构建的许多应用程序将包含多个步骤和多次 LLM 调用。随着这些应用程序变得越来越复杂,能够检查链或代理内部究竟发生了什么变得至关重要。最好的方法是使用 LangSmith。 在您通过上述链接注册后,请确保设置环境变量以开始记录跟踪:1. 文档和文档加载器
LangChain 实现了一个 Document 抽象,旨在表示一个文本单元及其关联的元数据。它具有三个属性:page_content:表示内容的字符串;metadata:包含任意元数据的字典;id:(可选)文档的字符串标识符。
metadata 属性可以捕获有关文档来源、其与其他文档的关系以及其他信息。请注意,单个 Document 对象通常表示较大文档的一个块。
我们可以根据需要生成示例文档:
加载文档
让我们将 PDF 加载到一系列Document 对象中。这是一个示例 PDF — 2023 年 Nike 的 10-K 文件。我们可以查阅 LangChain 文档以获取可用的 PDF 文档加载器。
PyPDFLoader 为每个 PDF 页面加载一个 Document 对象。对于每个对象,我们可以轻松访问:
- 页面的字符串内容;
- 包含文件名和页码的元数据。
分割
对于信息检索和下游问答目的而言,页面可能是一个过于粗糙的表示。我们的最终目标是检索能够回答输入查询的Document 对象,进一步分割 PDF 有助于确保文档相关部分的含义不会被周围文本“冲淡”。
我们可以使用文本分割器来实现此目的。在这里,我们将使用一个简单的基于字符进行分区的文本分割器。我们将文档分割成 1000 个字符的块,块之间有 200 个字符的重叠。重叠有助于减轻将语句与其重要上下文分离的可能性。我们使用 RecursiveCharacterTextSplitter,它将使用常见的分隔符(如换行符)递归分割文档,直到每个块达到合适的大小。这是通用文本用例的推荐文本分割器。
我们设置 add_start_index=True,以便将每个分割文档在初始文档中开始的字符索引保留为元数据属性“start_index”。
2. 嵌入
向量搜索是存储和搜索非结构化数据(例如非结构化文本)的常用方法。其思想是存储与文本关联的数字向量。给定一个查询,我们可以将其嵌入为相同维度的向量,并使用向量相似度度量(例如余弦相似度)来识别相关文本。 LangChain 支持来自数十个提供商的嵌入。这些模型指定了如何将文本转换为数字向量。让我们选择一个模型:- OpenAI
- Azure
- Google Gemini
- Google Vertex
- AWS
- HuggingFace
- Ollama
- Cohere
- MistralAI
- Nomic
- NVIDIA
- Voyage AI
- IBM watsonx
- Fake
- Isaacus
3. 向量存储
LangChain VectorStore 对象包含用于向存储中添加文本和Document 对象的方法,以及使用各种相似度度量进行查询的方法。它们通常使用嵌入模型初始化,这些模型决定了文本数据如何转换为数字向量。
LangChain 包含一套与不同向量存储技术的集成。一些向量存储由提供商托管(例如各种云提供商),需要特定的凭据才能使用;一些(如 Postgres)在可以本地运行或通过第三方运行的单独基础设施中运行;其他可以在内存中运行以用于轻量级工作负载。让我们选择一个向量存储:
- 内存存储
- Amazon OpenSearch
- AstraDB
- Chroma
- FAISS
- Milvus
- MongoDB
- PGVector
- PGVectorStore
- Pinecone
- Qdrant
VectorStore,我们就可以对其进行查询。VectorStore 包含用于查询的方法:
- 同步和异步;
- 按字符串查询和按向量;
- 带或不带返回相似度分数;
- 按相似度和最大边际相关性(以平衡相似度与检索结果的多样性)。
4. 检索器
LangChainVectorStore 对象不继承 Runnable。LangChain 检索器 是 Runnables,因此它们实现了一组标准方法(例如,同步和异步 invoke 和 batch 操作)。虽然我们可以从向量存储构造检索器,但检索器也可以与非向量存储的数据源(例如外部 API)接口。
我们可以自己创建一个简单的版本,而无需子类化 Retriever。如果我们选择希望用于检索文档的方法,我们可以轻松创建一个 runnable。下面我们将围绕 similarity_search 方法构建一个:
as_retriever 方法,该方法将生成一个检索器,具体来说是一个 VectorStoreRetriever。这些检索器包括特定的 search_type 和 search_kwargs 属性,用于标识要调用底层向量存储的哪些方法以及如何对其进行参数化。例如,我们可以使用以下方式复制上述内容:
VectorStoreRetriever 支持搜索类型 "similarity"(默认)、"mmr"(最大边际相关性,如上所述)和 "similarity_score_threshold"。我们可以使用后者通过相似度分数对检索器输出的文档进行阈值设置。
检索器可以轻松地集成到更复杂的应用程序中,例如检索增强生成 (RAG) 应用程序,这些应用程序将给定问题与检索到的上下文结合到 LLM 的提示中。要了解有关构建此类应用程序的更多信息,请查看RAG 教程教程。

