Skip to main content
本笔记本提供了 UnDatasIO 文档加载器 的快速入门概述。UnDatasIO 支持高效加载和解析多种文档格式,包括 PDF、PNG、JPG、JPEG 和 JFIF,具备文档懒加载和原生异步支持等特性,全程通过 UnDatasIO 的安全云端 API 处理。这些功能使得处理后的数据可直接用于 RAG 等生成式 AI 工作流。 有关所有功能和配置的详细文档,请参阅官方 API 参考文档。

概述

加载器功能

来源文档懒加载原生异步支持
UnDatasIOLoader

安装

凭证

UnDatasIO 需要 API 令牌。 在 undatas.io 生成免费令牌,并在下方单元格中设置:
import getpass
import os

if "UNDATASIO_TOKEN" not in os.environ:
    os.environ["UNDATASIO_TOKEN"] = getpass.getpass(
        "Enter your UnDatasIO API token: "
    )

安装依赖

常规安装

运行本笔记本其余部分需要以下包。
# 安装包,与 API 分区兼容
pip install langchain-undatasio

初始化

UnDatasIOLoader 通过 UnDatasIO 云端 API 支持单文件上传和解析。
from langchain_undatasio import UnDatasIOLoader

loader = UnDatasIOLoader(
    token=os.environ["UNDATASIO_TOKEN"],
    file_path="demo.pdf"
)

加载

docs = loader.load()
docs[0]
Document(
    metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
    page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)
print(docs[0].page_content[:300])
Growing a Tail: Increasing Output Diversity in Large Language Models

Authors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*

Affiliations:

1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.

2Faculty of Computer Science, Technion – I

懒加载

UnDatasIOLoader 支持懒加载,以实现内存高效的迭代。
pages = []
for doc in loader.lazy_load():
    pages.append(doc)

pages[0]
Document(
    metadata={'source': 'demo.pdf', 'task_id': 't1', 'file_id': 'f1'},
    page_content='Growing a Tail: Increasing Output Diversity in Large Language Models\n\nAuthors: Michal Shur-Ofry1, Bar Horowitz-Amsalem1†, Adir Rahamim2, Yonatan Belinkov2*\n\nAffiliations:\n\n1Law Faculty, Hebrew University of Jerusalem; Jerusalem, Israel.\n\n2Faculty of Computer Science, Technion – I'
)

另请参阅