Rockset 是一个专为云构建的实时搜索与分析数据库。Rockset 使用 Converged Index™,并配备高效的向量嵌入存储,可大规模提供低延迟、高并发的搜索查询。Rockset 完全支持元数据过滤,并能处理持续更新的流式数据实时摄取。本 notebook 演示了如何在 LangChain 中将
Rockset 用作向量存储。在开始之前,请确保您可以访问 Rockset 账户并有可用的 API 密钥。立即开始免费试用。
使用此集成需要通过 pip install -qU langchain-community 安装 langchain-community。
环境设置
-
利用
Rockset控制台创建一个以 Write API 作为数据源的集合。在本演示中,我们创建一个名为langchain_demo的集合。 配置以下摄取转换以标记您的嵌入字段,并充分利用性能和存储优化: (本示例使用 OpenAItext-embedding-ada-002,其中 #length_of_vector_embedding = 1536)
-
创建集合后,使用控制台获取 API 密钥。本 notebook 假设您使用
Oregon(us-west-2)区域。 -
安装 rockset-python-client,使 LangChain 能够直接与
Rockset通信。
LangChain 教程
在您自己的 Python notebook 中跟随操作,在 Rockset 中生成并存储向量嵌入。 然后使用 Rockset 搜索与您查询相似的文档。1. 定义关键变量
2. 准备文档
3. 插入文档
4. 搜索相似文档
5. 带过滤条件搜索相似文档
6. [可选] 删除已插入的文档
要从集合中删除文档,必须拥有每个文档关联的唯一 ID。 在使用Rockset.add_texts() 插入文档时可以定义 ID,否则 Rockset 会为每个文档生成唯一 ID。无论如何,Rockset.add_texts() 都会返回已插入文档的 ID。
要删除这些文档,只需使用 Rockset.delete_texts() 函数。
总结
在本教程中,我们成功创建了一个Rockset 集合,使用 OpenAI 嵌入插入了文档,并在带/不带元数据过滤器的情况下搜索了相似文档。
关注 rockset.com/ 获取该领域的未来更新。
将这些文档连接 到 Claude、VSCode 等,通过 MCP 获取实时答案。

