Skip to main content
UnDatasIO 提供的 undatasio 包可从 PDF 等原始源文档中提取干净的文本。 本页介绍如何在 LangChain 中使用 undatasio 生态系统。

安装与设置

  • 通过 pip install undatasio 安装 Python SDK, 并配合 pip install langchain-undatasio 使用 UnDatasIOLoader, 在 UnDatasIO API 上远程进行文档分区处理。 你需要一个 API 密钥,可在 undatas.io 免费生成。
  • 无需本地系统依赖;所有处理均在云端运行。

数据加载器

UnDatasIO 的主要用途是通过文档加载器实现的。

UnDatasIOLoader

查看使用示例了解单文件解析和惰性加载。
from langchain_undatasio import UnDatasIOLoader