Skip to main content
Docling 将 PDF、DOCX、PPTX、HTML 等格式解析为丰富的统一表示, 包括文档布局、表格等,使其为 RAG 等生成式 AI 工作流做好准备。 此集成通过 DoclingLoader 文档加载器提供 Docling 的功能。

安装与设置

只需从包管理器安装 langchain-docling,例如 pip:
pip install langchain-docling

文档加载器

langchain-docling 中的 DoclingLoader 类将 Docling 无缝集成到 LangChain 中,使您能够:
  • 轻松快捷地在 LLM 应用中使用各种文档类型,以及
  • 利用 Docling 丰富的表示进行高级、文档原生的溯源。
基本用法如下:
from langchain_docling import DoclingLoader

FILE_PATH = ["https://arxiv.org/pdf/2408.09869"]  # Docling 技术报告

loader = DoclingLoader(file_path=FILE_PATH)

docs = loader.load()
有关端到端使用,请查阅 此示例

额外资源