DatabricksEmbeddings 集成

Databricks Lakehouse 平台将数据、分析和 AI 统一在一个平台上。

本指南提供 Databricks 嵌入模型的快速入门概述。有关所有 DatabricksEmbeddings 功能和配置的详细文档，请访问 API 参考。

概述

集成详情

类	包
DatabricksEmbeddings	databricks-langchain

支持的方法

DatabricksEmbeddings 支持 Embeddings 类的所有方法，包括异步 API。

终结点要求

DatabricksEmbeddings 封装的服务终结点必须具有 OpenAI 兼容的嵌入输入/输出格式（参考）。只要输入格式兼容，DatabricksEmbeddings 就可用于托管在 Databricks Model Serving 上的任何类型终结点：

基础模型 - 精选的最先进基础模型，如 BAAI General Embedding（BGE）。这些终结点可在您的 Databricks 工作区中直接使用，无需任何配置。
自定义模型 - 您也可以通过 MLflow 将自定义嵌入模型部署到服务终结点，可选择 LangChain、Pytorch、Transformers 等框架。
外部模型 - Databricks 终结点可作为代理为托管在 Databricks 之外的模型提供服务，例如 OpenAI text-embedding-3 等专有模型服务。

设置

要访问 Databricks 模型，您需要创建 Databricks 账户、设置凭证（仅在 Databricks 工作区外部时需要），并安装所需包。

凭证（仅在 Databricks 外部时需要）

如果您在 Databricks 内部运行 LangChain 应用，可以跳过此步骤。否则，您需要手动将 Databricks 工作区主机名和个人访问令牌分别设置到 DATABRICKS_HOST 和 DATABRICKS_TOKEN 环境变量中。有关如何获取访问令牌，请参阅身份验证文档。

import getpass
import os

os.environ["DATABRICKS_HOST"] = "https://your-workspace.cloud.databricks.com"
if "DATABRICKS_TOKEN" not in os.environ:
    os.environ["DATABRICKS_TOKEN"] = getpass.getpass(
        "Enter your Databricks access token: "
    )

安装

LangChain Databricks 集成位于 databricks-langchain 包中：

pip install -qU databricks-langchain

实例化

from databricks_langchain import DatabricksEmbeddings

embeddings = DatabricksEmbeddings(
    endpoint="databricks-bge-large-en",
    # Specify parameters for embedding queries and documents if needed
    # query_params={...},
    # document_params={...},
)

索引与检索

嵌入模型通常用于检索增强生成（RAG）流程，既用于数据索引，也用于后续检索。更详细的说明请参阅我们的 RAG 教程。以下展示如何使用上面初始化的 embeddings 对象对数据进行索引和检索。本示例将在 InMemoryVectorStore 中索引并检索一个示例文档。

# Create a vector store with a sample text
from langchain_core.vectorstores import InMemoryVectorStore

text = "LangChain is the framework for building context-aware reasoning applications"

vectorstore = InMemoryVectorStore.from_texts(
    [text],
    embedding=embeddings,
)

# Use the vectorstore as a retriever
retriever = vectorstore.as_retriever()

# Retrieve the most similar text
retrieved_document = retriever.invoke("What is LangChain?")

# show the retrieved document's content
retrieved_document[0].page_content

直接使用

在底层，向量存储和检索器实现会分别调用 embeddings.embed_documents(...) 和 embeddings.embed_query(...) 来为文本创建嵌入。您可以直接调用这些方法来满足自己的使用需求。

嵌入单条文本

您可以使用 embed_query 嵌入单条文本或文档：

single_vector = embeddings.embed_query(text)
print(str(single_vector)[:100])  # Show the first 100 characters of the vector

嵌入多条文本

您可以使用 embed_documents 嵌入多条文本：

text2 = (
    "LangGraph is a library for building stateful, multi-actor applications with LLMs"
)
two_vectors = embeddings.embed_documents([text, text2])
for vector in two_vectors:
    print(str(vector)[:100])  # Show the first 100 characters of the vector

异步使用

您还可以使用 aembed_query 和 aembed_documents 异步生成嵌入：

import asyncio

async def async_example():
    single_vector = await embeddings.aembed_query(text)
    print(str(single_vector)[:100])  # Show the first 100 characters of the vector

asyncio.run(async_example())

API 参考

有关 DatabricksEmbeddings 功能和配置选项的详细文档，请参阅 API 参考。

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等，获取实时解答。

Popular Providers

Integrations by component

概述

集成详情

支持的方法

终结点要求

设置

凭证（仅在 Databricks 外部时需要）

安装

实例化

索引与检索

直接使用

嵌入单条文本

嵌入多条文本

异步使用

API 参考

Popular Providers

Integrations by component

​概述

​集成详情

​支持的方法

​终结点要求

​设置

​凭证（仅在 Databricks 外部时需要）

​安装

​实例化

​索引与检索

​直接使用

​嵌入单条文本

​嵌入多条文本

​异步使用

​API 参考

概述

集成详情

支持的方法

终结点要求

设置

凭证（仅在 Databricks 外部时需要）

安装

实例化

索引与检索

直接使用

嵌入单条文本

嵌入多条文本

异步使用

API 参考