Skip to main content
Dedoc 是一个开源库/服务, 从各种格式的文件中提取文本、表格、附件和文档结构(如标题、列表项等)。
Dedoc 支持 DOCXXLSXPPTXEMLHTMLPDF、图像等格式。 支持格式的完整列表可在此处找到。

安装与设置

Dedoc 库

您可以使用 pip 安装 Dedoc。 在这种情况下,您需要安装依赖项, 请前往此处获取更多信息。
pip install dedoc

Dedoc API

如果您要使用 Dedoc API,则不需要安装 dedoc 库。 在这种情况下,您应该运行 Dedoc 服务,例如 Docker 容器(请参阅 文档 了解更多详情):
docker pull dedocproject/dedoc
docker run -p 1231:1231

文档加载器

  • 要处理任何格式的文件(Dedoc 支持的),可以使用 DedocFileLoader
    from langchain_community.document_loaders import DedocFileLoader
    
  • 要处理 PDF 文件(有或无文本层),可以使用 DedocPDFLoader
    from langchain_community.document_loaders import DedocPDFLoader
    
  • 要处理任何格式的文件而无需安装库, 可以使用 DedocAPIFileLoader 通过 Dedoc API
    from langchain_community.document_loaders import DedocAPIFileLoader
    
请参阅使用示例了解更多详情。