Xata 集成

Xata 是一个基于 PostgreSQL 的无服务器数据平台。它提供了用于与数据库交互的 Python SDK 以及用于管理数据的 UI。 Xata 拥有原生向量类型，可添加到任何表中，并支持相似性搜索。LangChain 直接将向量插入 Xata，并查询给定向量的最近邻，因此您可以将所有 LangChain Embeddings 集成与 Xata 配合使用。

本 notebook 指导您如何将 Xata 用作 VectorStore。

配置

创建用作向量存储的数据库

在 Xata UI 中创建一个新数据库。您可以随意命名，在本 notebook 中我们使用 langchain。创建一个表，同样可以随意命名，但我们将使用 vectors。通过 UI 添加以下列：

content，类型为”Text”。用于存储 Document.pageContent 的值。
embedding，类型为”Vector”。使用您计划使用的模型的维度。在本 notebook 中，我们使用 OpenAI embeddings，其维度为 1536。
source，类型为”Text”。本示例将其用作元数据列。
您希望用作元数据的任何其他列。它们从 Document.metadata 对象填充。例如，如果在 Document.metadata 对象中有 title 属性，您可以在表中创建 title 列，它将被自动填充。

首先安装我们的依赖项：

pip install -qU  xata langchain-openai langchain-community tiktoken langchain

将 OpenAI key 加载到环境中。如果您没有 OpenAI key，可以创建 OpenAI 账号并在此页面上创建一个 key。

import getpass
import os

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

同样，我们需要获取 Xata 的环境变量。您可以通过访问您的账户设置创建新的 API key。要查找数据库 URL，请前往您创建的数据库的设置页面。数据库 URL 应类似于：https://demo-uni3q8.eu-west-1.xata.sh/db/langchain。

api_key = getpass.getpass("Xata API key: ")
db_url = input("Xata database URL (copy it from your DB settings):")

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores.xata import XataVectorStore
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

创建 xata 向量存储

导入我们的测试数据集：

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

现在创建实际的向量存储，以 Xata 表为后端。

vector_store = XataVectorStore.from_documents(
    docs, embeddings, api_key=api_key, db_url=db_url, table_name="vectors"
)

运行上述命令后，如果您进入 Xata UI，应该能看到文档及其嵌入向量已一同加载进来。要使用已包含向量内容的现有 Xata 表，请初始化 XataVectorStore 构造函数：

vector_store = XataVectorStore(
    api_key=api_key, db_url=db_url, embedding=embeddings, table_name="vectors"
)

相似性搜索

query = "What did the president say about Ketanji Brown Jackson"
found_docs = vector_store.similarity_search(query)
print(found_docs)

带分数（向量距离）的相似性搜索

query = "What did the president say about Ketanji Brown Jackson"
result = vector_store.similarity_search_with_score(query)
for doc, score in result:
    print(f"document={doc}, score={score}")

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等，获取实时答案。

Popular Providers

Integrations by component

配置

创建用作向量存储的数据库

创建 xata 向量存储

相似性搜索

带分数（向量距离）的相似性搜索

Popular Providers

Integrations by component

​配置

​创建用作向量存储的数据库

​创建 xata 向量存储

​相似性搜索

​带分数（向量距离）的相似性搜索

配置

创建用作向量存储的数据库

创建 xata 向量存储

相似性搜索

带分数（向量距离）的相似性搜索