面向 RAG 的 PDF 解析 — 转换为 Markdown 和 JSON,快速、本地、无需 GPU
OpenDataLoader PDF 以准确的阅读顺序、表格提取和边界框将 PDF 转换为 LLM 就绪的 Markdown 和 JSON,完全在您的本地计算机上运行。 开发者选择 OpenDataLoader 的原因:
- 确定性 — 相同输入始终产生相同输出(无 LLM 幻觉)
- 快速 — 在 CPU 上每秒处理 100+ 页
- 私密 — 100% 本地,零数据传输
- 精确 — 每个元素都有边界框,正确的多列阅读顺序
要求
- Python >= 3.10
- 系统
PATH中可用 Java 11 或更新版本
安装
快速开始
参数
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
file_path | str | List[str] | — | (必填) PDF 文件路径或目录 |
format | str | "text" | 输出格式:"text"、"markdown"、"json"、"html" |
split_pages | bool | True | 每页拆分为单独的 Document |
quiet | bool | False | 禁止控制台日志 |
password | str | None | 加密 PDF 的密码 |
use_struct_tree | bool | False | 使用 PDF 结构树(带标签的 PDF) |
table_method | str | "default" | "default"(基于边框)或 "cluster"(边框 + 聚类) |
reading_order | str | "xycut" | "xycut" 或 "off" |
keep_line_breaks | bool | False | 保留原始换行符 |
image_output | str | "off" | "off"、"embedded"(Base64)或 "external" |
image_format | str | "png" | "png" 或 "jpeg" |
content_safety_off | List[str] | None | 禁用安全过滤器:"hidden-text"、"off-page"、"tiny"、"hidden-ocg"、"all" |
replace_invalid_chars | str | None | 无效字符的替换内容 |
其他资源
- LangChain OpenDataLoader PDF 集成 GitHub
- LangChain OpenDataLoader PDF 集成 PyPI 包
- OpenDataLoader PDF GitHub
- OpenDataLoader PDF 主页
将这些文档连接 到 Claude、VSCode 等,通过 MCP 获取实时答案。

