- 确定性 — 相同输入始终产生相同输出(无 LLM 幻觉)
- 高速 — 在 CPU 上每秒处理 100+ 页
- 隐私安全 — 100% 本地运行,零数据传输
- 精准 — 每个元素都有边界框,正确处理多栏阅读顺序
概述
集成详情
| 类 | 包 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
| OpenDataLoader PDF | langchain-opendataloader-pdf | ✅ | ❌ | ❌ |
加载器功能
| 来源 | 文档惰性加载 | 原生异步支持 |
|---|---|---|
| OpenDataLoaderPDFLoader | ✅ | ❌ |
OpenDataLoaderPDFLoader 组件支持将 PDF 解析为结构化的 Document 对象。
环境要求
- Python >= 3.10
- 系统
PATH中需有 Java 11 或更新版本
安装
快速开始
参数
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
file_path | str | List[str] | — | (必填) PDF 文件路径或目录 |
format | str | "text" | 输出格式:"text"、"markdown"、"json"、"html" |
split_pages | bool | True | 按页拆分为单独的 Document |
quiet | bool | False | 禁止控制台日志输出 |
password | str | None | 加密 PDF 的密码 |
use_struct_tree | bool | False | 使用 PDF 结构树(带标签的 PDF) |
table_method | str | "default" | "default"(基于边框)或 "cluster"(边框 + 聚类) |
reading_order | str | "xycut" | "xycut" 或 "off" |
keep_line_breaks | bool | False | 保留原始换行符 |
image_output | str | "off" | "off"、"embedded"(Base64)或 "external" |
image_format | str | "png" | "png" 或 "jpeg" |
content_safety_off | List[str] | None | 禁用安全过滤器:"hidden-text"、"off-page"、"tiny"、"hidden-ocg"、"all" |
replace_invalid_chars | str | None | 无效字符的替换内容 |
使用示例
输出格式
带标签的 PDF 支持
适用于带结构标签的无障碍 PDF(政府/法律文档中常见):密码保护的 PDF
图片处理
文档元数据
每个返回的Document 包含以下元数据:
其他资源
- LangChain OpenDataLoader PDF 集成 GitHub
- LangChain OpenDataLoader PDF 集成 PyPI 包
- OpenDataLoader PDF GitHub
- OpenDataLoader PDF 官网
将这些文档连接 到 Claude、VSCode 等,通过 MCP 获取实时答案。

