TileDB 集成

TileDB 是一款强大的引擎，用于索引和查询稠密及稀疏多维数组。

TileDB 通过 TileDB-Vector-Search 模块提供 ANN 搜索能力。它支持在本地磁盘和云对象存储（如 AWS S3）上无服务器执行 ANN 查询并存储向量索引。

更多详情请参阅：

本 notebook 演示如何使用 TileDB 向量数据库。

pip install -qU  tiledb-vector-search langchain-community

基础示例

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import TileDB
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_text_splitters import CharacterTextSplitter

raw_documents = TextLoader("../../how_to/state_of_the_union.txt").load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
model_name = "sentence-transformers/all-mpnet-base-v2"
embeddings = HuggingFaceEmbeddings(model_name=model_name)
db = TileDB.from_documents(
    documents, embeddings, index_uri="/tmp/tiledb_index", index_type="FLAT"
)

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)
docs[0].page_content

按向量进行相似度搜索

embedding_vector = embeddings.embed_query(query)
docs = db.similarity_search_by_vector(embedding_vector)
docs[0].page_content

带分数的相似度搜索

docs_and_scores = db.similarity_search_with_score(query)
docs_and_scores[0]

最大边际相关性搜索（MMR）

除了在检索器对象中使用相似度搜索外，还可以将 mmr 用作检索器。

retriever = db.as_retriever(search_type="mmr")
retriever.invoke(query)

或直接使用 max_marginal_relevance_search：

db.max_marginal_relevance_search(query, k=2, fetch_k=10)

在 GitHub 上编辑此页面或提交 Issue.

将这些文档连接到 Claude、VSCode 等工具，通过 MCP 获取实时解答。

Popular Providers

Integrations by component

基础示例

按向量进行相似度搜索

带分数的相似度搜索

最大边际相关性搜索（MMR）

Popular Providers

Integrations by component

​基础示例

​按向量进行相似度搜索

​带分数的相似度搜索

​最大边际相关性搜索（MMR）

基础示例

按向量进行相似度搜索

带分数的相似度搜索

最大边际相关性搜索（MMR）