Writer PDF 解析器集成

本指南提供了使用 WRITER PDFParser 文档加载器快速入门的概述。 WRITER 的 PDF 解析器可将 PDF 文档转换为文本或 Markdown 等其他格式。当您需要从 PDF 文件中提取和处理文本内容以进行进一步分析或集成到工作流时，这尤为有用。在 langchain-writer 中，我们将 WRITER 的 PDF 解析器作为 LangChain 文档解析器提供使用。

弃用通知：PDF 解析工具已被弃用，将于 2025 年 12 月 22 日 移除。迁移路径：我们计划为聊天补全引入一个预构建的 PDF 解析工具，提供类似功能。该工具的使用方式与其他预构建工具类似。待该替代方案可用时，我们将提供更多详细信息。

概述

集成详情

类	包	本地	可序列化	JS 支持	下载量	版本
PDFParser	langchain-writer	❌	❌	❌

配置

PDFParser 可在 langchain-writer 包中获取：

pip install --quiet -U langchain-writer

凭据

import getpass
import os

if not os.getenv("WRITER_API_KEY"):
    os.environ["WRITER_API_KEY"] = getpass.getpass("Enter your WRITER API key: ")

设置 LangSmith 也很有帮助（但非必需），可获得一流的可观测性。如需设置，可配置 LANGSMITH_TRACING 和 LANGSMITH_API_KEY 环境变量：

os.environ["LANGSMITH_TRACING"] = "true"
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

实例化

接下来，以所需输出格式实例化 WRITER PDF 解析器：

from langchain_writer.pdf_parser import PDFParser

parser = PDFParser(format="markdown")

用法

使用 PDF 解析器有两种方式：同步或异步。两种情况下，PDF 解析器都将返回 Document 对象列表，每个对象包含 PDF 文件中一页的已解析内容。

同步用法

要同步调用 PDF 解析器，请将引用目标 PDF 文件的 Blob 对象传递给 parse 方法：

from langchain_core.documents.base import Blob

file = Blob.from_path("../example_data/layout-parser-paper.pdf")

parsed_pages = parser.parse(blob=file)
parsed_pages

异步用法

要异步调用 PDF 解析器，请将引用目标 PDF 文件的 Blob 对象传递给 aparse 方法：

parsed_pages_async = await parser.aparse(blob=file)
parsed_pages_async

API 参考

有关所有 PDFParser 功能和配置的详细文档，请访问 API 参考。

其他资源

您可以在 WRITER 文档中找到有关 WRITER 模型（包括费用、上下文窗口和支持的输入类型）和工具的信息。

在 GitHub 上编辑此页面或提交问题。

将这些文档连接到 Claude、VSCode 等，通过 MCP 获取实时答案。

Popular Providers

Integrations by component

概述

集成详情

配置

凭据

实例化

用法

同步用法

异步用法

API 参考

其他资源

Popular Providers

Integrations by component

​概述

​集成详情

​配置

​凭据

​实例化

​用法

​同步用法

​异步用法

​API 参考

​其他资源

概述

集成详情

配置

凭据

实例化

用法

同步用法

异步用法

API 参考

其他资源