Skip to main content
本指南介绍图 RAG。有关所有支持功能和配置的详细文档,请参阅 图 RAG 项目页面

概述

langchain-graph-retriever 包中的 GraphRetriever 提供了一个 LangChain 检索器,它结合了向量上的非结构化相似性搜索与元数据属性的结构化遍历。这使得能够基于现有向量存储进行基于图的检索。

集成详情

检索器来源PyPI 包最新版本项目页面
GraphRetrievergithub.com/datastax/graph-raglangchain-graph-retrieverPyPI - Version图 RAG

优势

设置

安装

此检索器位于 langchain-graph-retriever 包中。
pip install -qU langchain-graph-retriever

实例化

以下示例将展示如何对一些关于动物的示例文档执行图遍历。

先决条件

填充向量存储

本节展示如何使用示例数据填充各种向量存储。 有关选择以下向量存储之一的帮助,或添加对您向量存储的支持,请查阅关于 适配器和支持的存储 的文档。
使用 astra 额外功能安装 langchain-graph-retriever 包:
pip install "langchain-graph-retriever[astra]"
然后创建向量存储并加载测试文档:
from langchain_astradb import AstraDBVectorStore

vector_store = AstraDBVectorStore.from_documents(
    documents=animals,
    embedding=embeddings,
    collection_name="animals",
    api_endpoint=ASTRA_DB_API_ENDPOINT,
    token=ASTRA_DB_APPLICATION_TOKEN,
)
有关 ASTRA_DB_API_ENDPOINTASTRA_DB_APPLICATION_TOKEN 凭据, 请查阅 AstraDB 向量存储指南:::note 为了更快的初始测试,考虑使用 InMemory 向量存储。 :::

图遍历

此图检索器从与查询最匹配的单个动物开始,然后 遍历到共享相同 habitat 和/或 origin 的其他动物。
from graph_retriever.strategies import Eager
from langchain_graph_retriever import GraphRetriever

traversal_retriever = GraphRetriever(
    store = vector_store,
    edges = [("habitat", "habitat"), ("origin", "origin")],
    strategy = Eager(k=5, start_k=1, max_depth=2),
)
以上创建了一个图遍历检索器,它从最近的 动物 (start_k=1) 开始,检索 5 个文档 (k=5),并将搜索限制在距离 第一个动物最多 2 步的文档 (max_depth=2)。 edges 定义了元数据值如何用于遍历。在这种情况下,每个 动物都连接到具有相同 habitat 和/或 origin 的其他动物。
results = traversal_retriever.invoke("what animals could be found near a capybara?")

for doc in results:
    print(f"{doc.id}: {doc.page_content}")
capybara: capybaras are the largest rodents in the world and are highly social animals.
heron: herons are wading birds known for their long legs and necks, often seen near water.
crocodile: crocodiles are large reptiles with powerful jaws and a long lifespan, often living over 70 years.
frog: frogs are amphibians known for their jumping ability and croaking sounds.
duck: ducks are waterfowl birds known for their webbed feet and quacking sounds.
图遍历通过利用数据中的结构化关系来提高检索质量。 与标准相似性搜索(见下文)不同,它为文档被选择的原因提供了清晰、 可解释的理由。 在这种情况下,文档 capybaraheronfrogcrocodilenewt 都 共享相同的 habitat=wetlands,如其元数据所定义。这应会增加 文档相关性和 LLM 答案的质量。

与标准检索的比较

max_depth=0 时,图遍历检索器的行为类似于标准检索器:
standard_retriever = GraphRetriever(
    store = vector_store,
    edges = [("habitat", "habitat"), ("origin", "origin")],
    strategy = Eager(k=5, start_k=5, max_depth=0),
)
这创建了一个检索器,它从最近的 5 个动物 (start_k=5) 开始, 并在没有任何遍历的情况下返回它们 (max_depth=0)。在这种情况下, 边定义被忽略。 这本质上等同于:
standard_retriever = vector_store.as_retriever(search_kwargs={"k":5})
对于任一情况,调用检索器会返回:
results = standard_retriever.invoke("what animals could be found near a capybara?")

for doc in results:
    print(f"{doc.id}: {doc.page_content}")
capybara: capybaras are the largest rodents in the world and are highly social animals.
iguana: iguanas are large herbivorous lizards often found basking in trees and near water.
guinea pig: guinea pigs are small rodents often kept as pets due to their gentle and social nature.
hippopotamus: hippopotamuses are large semi-aquatic mammals known for their massive size and territorial behavior.
boar: boars are wild relatives of pigs, known for their tough hides and tusks.
这些文档仅基于相似性连接。存储中存在的任何结构化数据 都被忽略。与图检索相比,这可能会降低文档 相关性,因为返回的结果帮助回答查询的可能性较低。

用法

遵循以上示例,使用 invoke 来启动对查询的检索。

API 参考

要探索所有可用参数和高级配置,请参阅 图 RAG API 参考