Skip to main content
面向 RAG 的 PDF 解析 — 转换为 Markdown 和 JSON,快速、本地、无需 GPU
OpenDataLoader PDF 以准确的阅读顺序、表格提取和边界框将 PDF 转换为 LLM 就绪的 Markdown 和 JSON,完全在您的本地计算机上运行。 开发者选择 OpenDataLoader 的原因:
  • 确定性 — 相同输入始终产生相同输出(无 LLM 幻觉)
  • 快速 — 在 CPU 上每秒处理 100+ 页
  • 私密 — 100% 本地,零数据传输
  • 精确 — 每个元素都有边界框,正确的多列阅读顺序

要求

  • Python >= 3.10
  • 系统 PATH 中可用 Java 11 或更新版本

安装

pip install -U langchain-opendataloader-pdf

快速开始

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader

loader = OpenDataLoaderPDFLoader(
    file_path=["path/to/document.pdf", "path/to/folder"], 
    format="text"
)
documents = loader.load()

for doc in documents:
    print(doc.metadata, doc.page_content[:80])

参数

参数类型默认值描述
file_pathstr | List[str](必填) PDF 文件路径或目录
formatstr"text"输出格式:"text""markdown""json""html"
split_pagesboolTrue每页拆分为单独的 Document
quietboolFalse禁止控制台日志
passwordstrNone加密 PDF 的密码
use_struct_treeboolFalse使用 PDF 结构树(带标签的 PDF)
table_methodstr"default""default"(基于边框)或 "cluster"(边框 + 聚类)
reading_orderstr"xycut""xycut""off"
keep_line_breaksboolFalse保留原始换行符
image_outputstr"off""off""embedded"(Base64)或 "external"
image_formatstr"png""png""jpeg"
content_safety_offList[str]None禁用安全过滤器:"hidden-text""off-page""tiny""hidden-ocg""all"
replace_invalid_charsstrNone无效字符的替换内容

其他资源