Unstructured.IO 提供的unstructured包可从 PDF、Word 文档等原始源文档中提取干净的文本。 本页介绍如何在 LangChain 中使用unstructured生态系统。
安装与设置
如果你使用的是在本地运行的加载器,请按照以下步骤运行unstructured 及其依赖项。
-
为了最小化安装体积并使用开源
unstructured包中没有的功能,可通过pip install unstructured-client安装 Python SDK, 并配合pip install langchain-unstructured使用UnstructuredLoader,在 Unstructured API 上远程进行文档分区处理。 该加载器位于 LangChain 合作伙伴仓库而非langchain-community仓库,你需要一个api_key,可在此处免费生成密钥。- Unstructured SDK 的文档可在此处找到:https://docs.unstructured.io/api-reference/api-services/sdk
-
若要在本地运行所有内容,可通过
pip install unstructured安装开源 Python 包, 并配合pip install langchain-community使用上述相同的UnstructuredLoader。- 可以通过 extras 安装特定文档类型的依赖,例如
pip install "unstructured[docx]"。更多关于 extras 的信息请参阅此处。 - 若要安装所有文档类型的依赖,可使用
pip install "unstructured[all-docs]"。
- 可以通过 extras 安装特定文档类型的依赖,例如
-
如果以下系统依赖尚未在你的系统上安装,请使用如
brew install(Mac)等方式安装。根据你需要解析的文档类型,可能不需要全部安装。libmagic-dev(文件类型检测)poppler-utils(图像和 PDF)tesseract-ocr(图像和 PDF)qpdf(PDF)libreoffice(MS Office 文档)pandoc(EPUB)
- 在本地运行时,Unstructured 还建议按照此指南使用 Docker,以确保所有系统依赖正确安装。
数据加载器
Unstructured 的主要用途是数据加载器。
UnstructuredLoader
查看使用示例,了解如何使用此加载器进行本地分区处理以及通过无服务器 Unstructured API 远程处理。UnstructuredCHMLoader
CHM 代表 Microsoft Compiled HTML Help(微软编译 HTML 帮助文件)。
UnstructuredCSVLoader
逗号分隔值(CSV)文件是一种使用逗号分隔值的定界文本文件。文件的每一行是一条数据记录,每条记录由一个或多个字段组成,字段之间用逗号分隔。
查看使用示例。
UnstructuredEmailLoader
查看使用示例。UnstructuredEPubLoader
EPUB 是一种使用 “.epub” 文件扩展名的电子书文件格式,是 “electronic publication” 的缩写,有时也写作ePub。EPUB 受许多电子书阅读器支持,大多数智能手机、平板电脑和计算机都有兼容的软件。
查看使用示例。
UnstructuredExcelLoader
查看使用示例。UnstructuredFileIOLoader
查看使用示例。UnstructuredHTMLLoader
UnstructuredImageLoader
查看使用示例。UnstructuredMarkdownLoader
查看使用示例。UnstructuredODTLoader
办公应用程序开放文档格式(ODF),也称为 OpenDocument,是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使用 ZIP 压缩的 XML 文件。它的开发目标是为办公应用程序提供一种开放的、基于 XML 的文件格式规范。
查看使用示例。
UnstructuredOrgModeLoader
Org Mode 文档是一种在免费软件文本编辑器 Emacs 中用于笔记、规划和写作的文档编辑、格式化和组织模式。 查看使用示例。UnstructuredPDFLoader
UnstructuredPowerPointLoader
查看使用示例。UnstructuredRSTLoader
reStructured Text(RST)文件是一种文本数据文件格式,主要在 Python 编程语言社区中用于技术文档。
查看使用示例。
UnstructuredRTFLoader
查看 API 文档中的使用示例。UnstructuredTSVLoader
制表符分隔值(TSV)文件是一种用于存储表格数据的简单文本文件格式。记录之间用换行符分隔,记录中的值之间用制表符分隔。
查看使用示例。
UnstructuredURLLoader
查看使用示例。UnstructuredWordDocumentLoader
查看使用示例。UnstructuredXMLLoader
查看使用示例。通过 MCP 将这些文档连接到 Claude、VSCode 等以获取实时答案。

