Skip to main content
Nuclia 可自动为来自任何内部和外部来源的非结构化数据建立索引,提供优化的搜索结果和生成式问答。它能够处理视频和音频转录、图像内容提取和文档解析。
Nuclia Understanding API 文档转换器将文本分割为段落和句子,识别实体,提供文本摘要,并为所有句子生成嵌入向量。 要使用 Nuclia Understanding API,您需要拥有一个 Nuclia 账户。您可以在 https://nuclia.cloud 免费创建账户,然后创建 NUA 密钥 from langchain_community.document_transformers.nuclia_text_transform import NucliaTextTransformer
pip install -qU  protobuf
pip install -qU  nucliadb-protos
import os

os.environ["NUCLIA_ZONE"] = "<YOUR_ZONE>"  # 例如:europe-1
os.environ["NUCLIA_NUA_KEY"] = "<YOUR_API_KEY>"
要使用 Nuclia 文档转换器,您需要实例化一个 enable_ml 设为 TrueNucliaUnderstandingAPI 工具:
from langchain_community.tools.nuclia import NucliaUnderstandingAPI

nua = NucliaUnderstandingAPI(enable_ml=True)
Nuclia 文档转换器必须在异步模式下调用,因此需要使用 atransform_documents 方法:
import asyncio

from langchain_community.document_transformers.nuclia_text_transform import (
    NucliaTextTransformer,
)
from langchain_core.documents import Document


async def process():
    documents = [
        Document(page_content="<TEXT 1>", metadata={}),
        Document(page_content="<TEXT 2>", metadata={}),
        Document(page_content="<TEXT 3>", metadata={}),
    ]
    nuclia_transformer = NucliaTextTransformer(nua)
    transformed_documents = await nuclia_transformer.atransform_documents(documents)
    print(transformed_documents)


asyncio.run(process())