Databricks 提供了一个数据和 AI 平台(通常称为 Databricks Lakehouse),用于分析、机器学习和生成式 AI 工作负载。Databricks 以多种方式拥抱 LangChain 生态系统:
- 🚀 模型服务 - 通过高可用、低延迟的推理端点,访问最先进的 LLM,例如 DBRX、Llama3、Mixtral 或您在 Databricks 模型服务 上微调的模型。LangChain 提供了 LLM (
Databricks)、聊天模型 (ChatDatabricks) 和嵌入 (DatabricksEmbeddings) 实现,简化了将您托管在 Databricks 模型服务上的模型与 LangChain 应用程序集成的过程。 - 📃 向量搜索 - Databricks 向量搜索 是一个无服务器向量数据库,无缝集成在 Databricks 平台中。使用
DatabricksVectorSearch类将 LangChain 连接到您 Databricks 账户中的向量搜索索引。 - 📊 MLflow - MLflow 是一个开源平台,用于管理完整的 ML 生命周期,包括实验管理、评估、跟踪、部署等。MLflow 的 LangChain 集成 简化了开发和运营现代复合 ML 系统的过程。
- 🌐 SQL 数据库 - Databricks SQL 与 LangChain 中的
SQLDatabase集成,允许您访问自动优化、性能卓越的数据仓库。 - 💡 开放模型 - Databricks 开源模型,例如 DBRX,可通过 Hugging Face Hub 获取。这些模型可以直接与 LangChain 一起使用,利用其与
transformers库的集成。
安装
第一方 Databricks 集成现已在 databricks-langchain 合作伙伴包中提供。聊天模型
ChatDatabricks 是一个聊天模型类,用于访问托管在 Databricks 上的聊天端点,包括最先进的模型(如 Llama3、Mixtral 和 DBRX)以及您自己微调的模型。
LLM
Databricks 是一个 LLM 类,用于访问托管在 Databricks 上的补全端点。
嵌入
DatabricksEmbeddings 是一个嵌入类,用于访问托管在 Databricks 上的文本嵌入端点,包括最先进的模型(如 BGE)以及您自己微调的模型。
向量搜索
Databricks 向量搜索是一个无服务器相似性搜索引擎,允许您将数据的向量表示(包括元数据)存储在向量数据库中。通过向量搜索,您可以从由 Unity Catalog 管理的 Delta 表创建自动更新的向量搜索索引,并使用简单的 API 查询它们以返回最相似的向量。MLflow 集成
在 LangChain 集成的背景下,MLflow 提供以下功能:- 实验跟踪:跟踪和存储来自您 LangChain 实验的模型、工件和跟踪信息。
- 依赖管理:自动记录依赖库,确保开发、预生产和生产环境之间的一致性。
- 模型评估:提供评估 LangChain 应用程序的原生功能。
- 跟踪:可视化跟踪数据流经您的 LangChain 应用程序。
SQLDatabase
要连接到 Databricks SQL 或查询结构化数据,请参阅 Databricks 结构化检索器工具文档,要使用上述创建的 SQL UDF 创建代理,请参阅 Databricks UC 集成。开放模型
要直接集成托管在 HuggingFace 上的 Databricks 开放模型,您可以使用 LangChain 的 HuggingFace 集成。将这些文档通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

