Skip to main content
本文将帮助你快速上手 Elasticsearch 键值存储。有关 ElasticsearchEmbeddingsCache 所有特性和配置的详细文档,请参阅 API 参考

概述

ElasticsearchEmbeddingsCache 是一种 ByteStore 实现,使用你的 Elasticsearch 实例高效存储和检索嵌入向量。

集成详情

本地支持JS 支持下载量版本
ElasticsearchEmbeddingsCachelangchain-elasticsearchPyPI - DownloadsPyPI - Version

配置

要创建 ElasticsearchEmbeddingsCache 字节存储,你需要一个 Elasticsearch 集群。可以在本地搭建,或创建 Elastic 账户

安装

LangChain ElasticsearchEmbeddingsCache 集成位于 langchain-elasticsearch 包中:
pip install -qU langchain-elasticsearch

实例化

现在可以实例化字节存储:
from langchain_elasticsearch import ElasticsearchEmbeddingsCache

# Example config for a locally running Elasticsearch instance
kv_store = ElasticsearchEmbeddingsCache(
    es_url="https://localhost:9200",
    index_name="llm-chat-cache",
    metadata={"project": "my_chatgpt_project"},
    namespace="my_chatgpt_project",
    es_user="elastic",
    es_password="<GENERATED PASSWORD>",
    es_params={
        "ca_certs": "~/http_ca.crt",
    },
)

使用方法

可以使用 mset 方法在键下设置数据:
kv_store.mset(
    [
        ["key1", b"value1"],
        ["key2", b"value2"],
    ]
)

kv_store.mget(
    [
        "key1",
        "key2",
    ]
)
[b'value1', b'value2']
可以使用 mdelete 方法删除数据:
kv_store.mdelete(
    [
        "key1",
        "key2",
    ]
)

kv_store.mget(
    [
        "key1",
        "key2",
    ]
)
[None, None]

用作嵌入缓存

与其他 ByteStore 一样,你可以使用 ElasticsearchEmbeddingsCache 实例在文档摄取时进行 持久化缓存,用于 RAG 场景。 然而,缓存的向量默认不支持搜索。开发者可以自定义 Elasticsearch 文档的构建方式,以添加带索引的向量字段。 可以通过子类化并重写方法来实现:
from typing import Any, Dict, List


class SearchableElasticsearchStore(ElasticsearchEmbeddingsCache):
    @property
    def mapping(self) -> Dict[str, Any]:
        mapping = super().mapping
        mapping["mappings"]["properties"]["vector"] = {
            "type": "dense_vector",
            "dims": 1536,
            "index": True,
            "similarity": "dot_product",
        }
        return mapping

    def build_document(self, llm_input: str, vector: List[float]) -> Dict[str, Any]:
        body = super().build_document(llm_input, vector)
        body["vector"] = vector
        return body
重写映射和文档构建时,请仅进行追加性修改,保持基础映射不变。

API 参考

有关 ElasticsearchEmbeddingsCache 所有特性和配置的详细文档,请参阅 API 参考:python.langchain.com/api_reference/elasticsearch/cache/langchain_elasticsearch.cache.ElasticsearchEmbeddingsCache.html