OpenDataLoader PDF 集成

面向 RAG 的 PDF 解析 — 转换为 Markdown 和 JSON，快速、本地、无需 GPU

OpenDataLoader PDF 以准确的阅读顺序、表格提取和边界框将 PDF 转换为 LLM 就绪的 Markdown 和 JSON，完全在您的本地计算机上运行。 开发者选择 OpenDataLoader 的原因：

确定性 — 相同输入始终产生相同输出（无 LLM 幻觉）

快速 — 在 CPU 上每秒处理 100+ 页

私密 — 100% 本地，零数据传输

精确 — 每个元素都有边界框，正确的多列阅读顺序

要求

Python >= 3.10
系统 PATH 中可用 Java 11 或更新版本

安装

pip install -U langchain-opendataloader-pdf

快速开始

from langchain_opendataloader_pdf import OpenDataLoaderPDFLoader

loader = OpenDataLoaderPDFLoader(
    file_path=["path/to/document.pdf", "path/to/folder"], 
    format="text"
)
documents = loader.load()

for doc in documents:
    print(doc.metadata, doc.page_content[:80])

参数

参数	类型	默认值	描述
`file_path`	`str \| List[str]`	—	（必填） PDF 文件路径或目录
`format`	`str`	`"text"`	输出格式：`"text"`、`"markdown"`、`"json"`、`"html"`
`split_pages`	`bool`	`True`	每页拆分为单独的 Document
`quiet`	`bool`	`False`	禁止控制台日志
`password`	`str`	`None`	加密 PDF 的密码
`use_struct_tree`	`bool`	`False`	使用 PDF 结构树（带标签的 PDF）
`table_method`	`str`	`"default"`	`"default"`（基于边框）或 `"cluster"`（边框 + 聚类）
`reading_order`	`str`	`"xycut"`	`"xycut"` 或 `"off"`
`keep_line_breaks`	`bool`	`False`	保留原始换行符
`image_output`	`str`	`"off"`	`"off"`、`"embedded"`（Base64）或 `"external"`
`image_format`	`str`	`"png"`	`"png"` 或 `"jpeg"`
`content_safety_off`	`List[str]`	`None`	禁用安全过滤器：`"hidden-text"`、`"off-page"`、`"tiny"`、`"hidden-ocg"`、`"all"`
`replace_invalid_chars`	`str`	`None`	无效字符的替换内容

其他资源

在 GitHub 上编辑此页面或提交问题。

将这些文档连接到 Claude、VSCode 等，通过 MCP 获取实时答案。

Popular Providers

Integrations by component

要求

安装

快速开始

参数

其他资源

Popular Providers

Integrations by component

​要求

​安装

​快速开始

​参数

​其他资源

要求

安装

快速开始

参数

其他资源