Skip to main content
兼容性:仅在 Node.js 上可用。
Oracle AI Database 支持 AI 工作负载,您可以通过含义(语义)而不仅仅是关键词来查询数据。它将非结构化内容的语义搜索业务数据的关系型过滤结合在一个系统中,因此您可以构建检索工作流(如 RAG),而无需引入单独的向量数据库或将数据分散在多个平台上。 本指南演示如何使用 OracleVS(Oracle AI Vector Search 的 LangChain 向量存储集成)来:
  • 将文档和嵌入摄取到 Oracle 中
  • 运行相似性搜索
  • 创建 HNSW 和 IVF 索引
  • 应用元数据过滤器进行高级检索
  • 在 Oracle AI Database 26ai 中启用混合搜索(关键词 + 语义)
  • 使用 Oracle Text 运行全文搜索

概述

集成详情

混合搜索PY 支持
OracleVS@oracle/langchain-oracledb

设置

安装 Oracle 客户端绑定和 LangChain Oracle 助手:
npm install @oracle/langchain-oracledb @langchain/core
为将拥有向量表的 Oracle 用户设置连接凭据:
export ORACLE_USER=testuser
export ORACLE_PASSWORD=testuser
export ORACLE_DSN="localhost:1521/free"

创建向量存储

下面的示例假设您已经创建了一个包含向量和元数据列的表,并使用 OracleEmbeddings 生成了嵌入。
import oracledb from "oracledb";
import { OracleEmbeddings, OracleVS } from "@oracle/langchain-oracledb";
import { Document } from "@langchain/core/documents";

const connection = await oracledb.getConnection({
  user: process.env.ORACLE_USER,
  password: process.env.ORACLE_PASSWORD,
  connectionString: process.env.ORACLE_DSN,
});

const embeddings = new OracleEmbeddings(connection, {
  provider: "database",
  model: "DEMO_MODEL",
});

const vectorStore = new OracleVS(embeddings, {
  client: connection,
  tableName: "DEMO_VECTORS",
  query: "Find documents about Oracle RAG patterns.",
  distanceStrategy: "DOT",
});
await vectorStore.initialize();

const docs: Document[] = [
  {
    pageContent: "LangChain works great with Oracle Database.",
    metadata: {
      doc_id: "doc-1",
      title: "RAG overview",
      status: "release",
      tags: ["AI", "rag"],
      category: "books",
      price: 18,
    },
  },
];

await vectorStore.addDocuments(docs);

// 在应用程序关闭钩子中关闭连接或池以避免泄漏。
// await connection.close();
如果您的应用程序已经管理 Oracle Database 连接池,请直接将池传递给 OracleVS。存储会根据需要获取和释放连接。
const pool = await oracledb.createPool({
  user: process.env.ORACLE_USER,
  password: process.env.ORACLE_PASSWORD,
  connectString: process.env.ORACLE_DSN,
  poolIncrement: 1,
  poolMax: 4,
  poolMin: 0,
  poolPingInterval: 60,
});

const vectorStoreFromPool = new OracleVS(embeddings, {
  client: pool,
  tableName: "DEMO_VECTORS",
  query: "Find documents about Oracle RAG patterns.",
  distanceStrategy: "DOT",
});
await vectorStoreFromPool.initialize();

// 在关闭期间释放资源。
// await pool.close(0);

过滤搜索结果

您可以将丰富的元数据过滤器作为第三个参数传递给 similaritySearchsimilaritySearchWithScoresimilaritySearchVectorWithScore。过滤器在 Oracle VS 为每个文档维护的 JSON metadata 列上操作。 支持的比较运算符包括 $eq(默认)、$ne$lt$lte$gt$gte$in$nin$between$exists。使用 $and$or 组合子句以构建更具表现力的谓词。
const results = await vectorStore.similaritySearch("oracle rag", 3, {
  $and: [
    { status: "release" },
    { tags: { $in: ["AI"] } },
    { price: { $between: [10, 25] } },
  ],
});

// 或者请求文档及其分数。
const scored = await vectorStore.similaritySearchWithScore(
  "oracle rag",
  3,
  { status: "release" },
);

console.log(results[0]?.pageContent);
console.log(scored[0]?.[1]); // 相似性分数
还支持嵌套逻辑子句。例如:
const complexFilter = {
  $or: [
    { status: "draft" },
    {
      $and: [
        { category: "books" },
        { price: { $lte: 20 } },
      ],
    },
  ],
};

使用向量索引加速搜索

Oracle Database 可以通过在 embedding 列上创建向量索引来加速相似性查询。@oracle/langchain-oracledb 助手公开了一个 createIndex 实用程序,用于配置 HNSW(默认)或 IVF 索引。

HNSW 索引(默认)

当您想要一个平衡召回率和延迟的基于图的索引时,使用 HNSW。省略 idxType 以使用默认配置,或覆盖参数如 neighborsefConstructionaccuracy
import { createIndex } from "@oracle/langchain-oracledb";

// 重用设置部分中的 vectorStore 和连接,
// 或使用 OracleVS.fromDocuments / initialize() 创建一个。
await createIndex(connection, vectorStore, {
  idxName: "demo_hnsw_idx",
  neighbors: 48,
  efConstruction: 400,
  accuracy: 95,
  parallel: 16,
});

IVF 索引

通过传递 idxType: "IVF" 以及要创建的邻居分区数来切换到 IVF。IVF 将向量分区到集群中,当您想要具有可预测内存使用的粗略量化时非常有用。
import { createIndex } from "@oracle/langchain-oracledb";

await createIndex(connection, vectorStore, {
  idxName: "demo_ivf_idx",
  idxType: "IVF",
  neighborPart: 64,
  accuracy: 90,
  parallel: 8,
});
在加载数据后(或在 initialize 之后)运行一次 createIndex,并在后续搜索中重用该索引。要重建或交换策略,请通过标准 SQL(DROP INDEX ...)删除现有索引,并使用新参数重新运行 createIndex

后续步骤