Skip to main content
LambdaDB 是一个无服务器 AI 数据库,用于构建可扩展的 RAG 和代理应用程序。
本笔记本介绍如何在 LangChain 中开始使用 LambdaDB 向量存储。

设置

要访问 LambdaDB 向量存储,您需要创建一个 LambdaDB 账户,获取您的项目凭证,并安装 langchain-lambdadb 集成包。

凭证

LambdaDB 使用基于项目的认证,需要项目 URL 和 API 密钥:
import getpass
import os

if "LAMBDADB_PROJECT_URL" not in os.environ:
    os.environ["LAMBDADB_PROJECT_URL"] = getpass.getpass("Enter your LambdaDB project URL: ")

if "LAMBDADB_API_KEY" not in os.environ:
    os.environ["LAMBDADB_API_KEY"] = getpass.getpass("Enter your LambdaDB API key: ")
要启用模型调用的自动跟踪,请设置您的 LangSmith API 密钥:
os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
os.environ["LANGSMITH_TRACING"] = "true"

安装

LangChain LambdaDB 集成位于 langchain-lambdadb 包中:
pip install -U langchain-lambdadb
您还需要安装一个嵌入模型。例如,要使用 OpenAI 嵌入:
pip install -U langchain-openai

实例化

LambdaDBVectorStore 与现有集合配合使用。您必须事先创建集合,并配置好适当的向量和文本索引。
from langchain_lambdadb.vectorstores import LambdaDBVectorStore
from langchain_openai import OpenAIEmbeddings
from lambdadb import LambdaDB
import os

# 初始化 LambdaDB 客户端
client = LambdaDB(
    server_url=os.environ["LAMBDADB_SERVER_URL"],
    project_api_key=os.environ["LAMBDADB_API_KEY"]
)

# 初始化嵌入
embeddings = OpenAIEmbeddings()

# 连接到现有集合
vector_store = LambdaDBVectorStore(
    client=client,
    collection_name="my_collection",  # 必须事先存在
    embedding=embeddings,
)

关键参数

  • client: LambdaDB 客户端实例(必需)
  • collection_name: LambdaDB 中现有集合的名称(必需)
  • embedding: 要使用的嵌入函数(必需)
  • text_field: 文档中文本字段的名称(默认值:“text”)
  • vector_field: 文档中向量字段的名称(默认值:“vector”)
  • validate_collection: 是否验证集合是否存在且处于活动状态(默认值:True)
  • default_consistent_read: 默认使用一致性读取以实现即时一致性,或使用最终一致性以获得更好的性能(默认值:False)

管理向量存储

添加项目

from langchain_core.documents import Document

document_1 = Document(page_content="LambdaDB is a serverless vector database", metadata={"source": "docs"})
document_2 = Document(page_content="It supports fast similarity search", metadata={"source": "docs"})
document_3 = Document(page_content="Perfect for RAG applications", metadata={"category": "features"})

documents = [document_1, document_2, document_3]
ids = vector_store.add_documents(documents=documents, ids=["1", "2", "3"])
print(f"Added documents with IDs: {ids}")
文档最大大小为 50KB。集成会自动将文档分批处理,每批最多 100 个,以保持在 LambdaDB 的 6MB 请求限制内。

删除项目

vector_store.delete(ids=["3"])

按 ID 获取项目

documents = vector_store.get_by_ids(["1", "2"])
for doc in documents:
    print(f"* {doc.page_content} [{doc.metadata}]")

查询向量存储

一旦您的向量存储创建完成并添加了相关文档,您很可能希望在运行链或代理时对其进行查询。

相似性搜索

执行简单的相似性搜索:
results = vector_store.similarity_search(
    query="What is LambdaDB?",
    k=2
)
for doc in results:
    print(f"* {doc.page_content} [{doc.metadata}]")

带分数的相似性搜索

如果您想执行相似性搜索并接收相应的分数:
results = vector_store.similarity_search_with_score(
    query="vector database features",
    k=2
)
for doc, score in results:
    print(f"* [SIM={score:.3f}] {doc.page_content} [{doc.metadata}]")

带过滤的相似性搜索

LambdaDB 支持使用查询字符串语法进行过滤:
results = vector_store.similarity_search(
    query="database",
    k=2,
    filter={"queryString": {"query": "source:docs"}}
)
for doc in results:
    print(f"* {doc.page_content} [{doc.metadata}]")

最大边际相关性 (MMR) 搜索

MMR 优化了与查询的相似性以及所选文档之间的多样性:
results = vector_store.max_marginal_relevance_search(
    query="LambdaDB features",
    k=2,
    fetch_k=10,  # 获取 10 个候选
    lambda_mult=0.5,  # 相关性 (1.0) 和多样性 (0.0) 之间的平衡
)
for doc in results:
    print(f"* {doc.page_content}")

转换为检索器

您还可以将向量存储转换为检索器,以便在链中更轻松地使用:
retriever = vector_store.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 2, "fetch_k": 10}
)
retriever.invoke("What is LambdaDB?")
支持的搜索类型:
  • "similarity": 标准相似性搜索(默认)
  • "mmr": 最大边际相关性搜索
  • "similarity_score_threshold": 带分数阈值的相似性搜索

异步操作

LambdaDBVectorStore 支持所有操作的异步方法:
# 添加文档
ids = await vector_store.aadd_documents(documents=documents)

# 删除文档
await vector_store.adelete(ids=["3"])

# 搜索
results = await vector_store.asimilarity_search(query="LambdaDB", k=2)
for doc in results:
    print(f"* {doc.page_content}")

# 带分数的搜索
results = await vector_store.asimilarity_search_with_score(query="database", k=2)
for doc, score in results:
    print(f"* [SIM={score:.3f}] {doc.page_content}")
目前,异步方法同步运行,因为 LambdaDB 客户端尚不支持异步操作。

一致性控制

LambdaDB 支持两种一致性模式:
  • 最终一致性(默认):性能更快,但写入后数据可能最多延迟约 1 分钟
  • 一致性读取:即时一致性,对性能有轻微影响
# 对特定操作使用一致性读取
results = vector_store.similarity_search(
    query="LambdaDB",
    k=2,
    consistent_read=True
)

# 或将一致性读取设置为默认值
vector_store = LambdaDBVectorStore(
    client=client,
    collection_name="my_collection",
    embedding=embeddings,
    default_consistent_read=True  # 所有读取默认将是一致的
)

从文本创建

您可以一步创建向量存储并用文本填充它:
from langchain_lambdadb.vectorstores import LambdaDBVectorStore

texts = [
    "LambdaDB is a serverless vector database",
    "It supports fast similarity search",
    "Perfect for RAG applications"
]

metadatas = [
    {"source": "docs"},
    {"source": "docs"},
    {"category": "features"}
]

vector_store = LambdaDBVectorStore.from_texts(
    texts=texts,
    embedding=embeddings,
    metadatas=metadatas,
    client=client,
    collection_name="my_collection",
    ids=["1", "2", "3"]
)

用于检索增强生成的用法

以下是使用 LambdaDB 进行 RAG 的完整示例:
from langchain_lambdadb.vectorstores import LambdaDBVectorStore
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from lambdadb import LambdaDB
import os

# 初始化
client = LambdaDB(
    project_url=os.environ["LAMBDADB_PROJECT_URL"],
    project_api_key=os.environ["LAMBDADB_API_KEY"]
)

embeddings = OpenAIEmbeddings()
vector_store = LambdaDBVectorStore(
    client=client,
    collection_name="my_collection",
    embedding=embeddings
)

# 创建检索器
retriever = vector_store.as_retriever(search_kwargs={"k": 3})

# 创建 RAG 链
template = """Answer the question based only on the following context:
{context}

Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)
model = ChatOpenAI()

chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

# 使用链
response = chain.invoke("What is LambdaDB?")
print(response)

关键特性

文档大小限制

  • 最大文档大小:每个文档 50KB
  • 集成会验证文档大小,如果超出限制则引发错误

批处理

  • 文档会自动分批处理,每批最多 100 个,用于更新操作
  • 保持在 LambdaDB 的 6MB 请求限制内

过滤

  • 支持 LambdaDB 的查询字符串语法进行元数据过滤
  • 示例:filter={"queryString": {"query": "field:value"}}

搜索选项

  • 相似性搜索:查找与查询相似的文档
  • MMR 搜索:平衡相似性和多样性
  • 分数阈值:按相似性分数过滤结果
  • 一致性读取:控制读取一致性与性能的权衡

API 参考

有关所有 LambdaDBVectorStore 功能和配置的详细文档,请前往 API 参考

其他资源