Dingodb 集成

DingoDB 是一款分布式多模态向量数据库，融合了数据湖和向量数据库的特性，能够存储任意类型和大小的数据（Key-Value、PDF、音频、视频等）。它具备实时低延迟处理能力，可实现快速洞察与响应，并能高效地对多模态数据进行即时分析和处理。

使用此集成需要通过 pip install -qU langchain-community 安装 langchain-community。本 notebook 展示如何使用与 DingoDB 向量数据库相关的功能。运行之前，您需要有一个正在运行的 DingoDB 实例。

pip install -qU  dingodb
# 或安装最新版本：
pip install -qU  git+https://git@github.com/dingodb/pydingo.git

我们要使用 OpenAIEmbeddings，因此需要获取 OpenAI API 密钥。

import getpass
import os

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

OpenAI API Key:········

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Dingo
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

from langchain_community.document_loaders import TextLoader

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

from dingodb import DingoDB

index_name = "langchain_demo"

dingo_client = DingoDB(user="", password="", host=["127.0.0.1:13000"])
# 首先检查索引是否已存在，若不存在则创建
if (
    index_name not in dingo_client.get_index()
    and index_name.upper() not in dingo_client.get_index()
):
    # 创建新索引，请根据实际情况修改
    dingo_client.create_index(
        index_name=index_name, dimension=1536, metric_type="cosine", auto_id=False
    )

# OpenAI 嵌入模型 `text-embedding-ada-002` 使用 1536 维
docsearch = Dingo.from_documents(
    docs, embeddings, client=dingo_client, index_name=index_name
)

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Dingo
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(query)

print(docs[0].page_content)

向现有索引添加更多文本

可以使用 add_texts 函数将更多文本嵌入并更新插入到现有 Dingo 索引中。

vectorstore = Dingo(embeddings, "text", client=dingo_client, index_name=index_name)

vectorstore.add_texts(["More text!"])

最大边际相关性搜索

除了在检索器对象中使用相似度搜索外，还可以使用 mmr 作为检索器。

retriever = docsearch.as_retriever(search_type="mmr")
matched_docs = retriever.invoke(query)
for i, d in enumerate(matched_docs):
    print(f"\n## Document {i}\n")
    print(d.page_content)

或直接使用 max_marginal_relevance_search：

found_docs = docsearch.max_marginal_relevance_search(query, k=2, fetch_k=10)
for i, doc in enumerate(found_docs):
    print(f"{i + 1}.", doc.page_content, "\n")

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等，获取实时解答。

Popular Providers

Integrations by component

向现有索引添加更多文本

最大边际相关性搜索

Popular Providers

Integrations by component

​向现有索引添加更多文本

​最大边际相关性搜索

向现有索引添加更多文本

最大边际相关性搜索