Dedoc 是一个开源库/服务, 从各种格式的文件中提取文本、表格、附件和文档结构(如标题、列表项等)。
Dedoc 支持 DOCX、XLSX、PPTX、EML、HTML、PDF、图像等格式。
支持格式的完整列表可在此处找到。
安装与设置
Dedoc 库
您可以使用pip 安装 Dedoc。
在这种情况下,您需要安装依赖项,
请前往此处获取更多信息。
Dedoc API
如果您要使用Dedoc API,则不需要安装 dedoc 库。
在这种情况下,您应该运行 Dedoc 服务,例如 Docker 容器(请参阅
文档
了解更多详情):
文档加载器
-
要处理任何格式的文件(
Dedoc支持的),可以使用DedocFileLoader: -
要处理 PDF 文件(有或无文本层),可以使用
DedocPDFLoader: -
要处理任何格式的文件而无需安装库,
可以使用
DedocAPIFileLoader通过Dedoc API:
通过 MCP 将这些文档连接到 Claude、VSCode 等,获取实时答案。

