来自 Unstructured.IO 的unstructured包可以从 PDF 和 Word 文档等原始源文档中提取干净的文本。 本页介绍如何在 LangChain 中使用unstructured生态系统。
安装与设置
如果您使用的是本地运行的加载器,请按照以下步骤获取unstructured 及其依赖项。
-
为了获得最小的安装占用空间,并利用开源
unstructured包中不可用的功能,请使用pip install unstructured-client安装 Python SDK,并使用pip install langchain-unstructured来使用UnstructuredLoader并通过 Unstructured API 进行远程分区。此加载器位于 LangChain 合作伙伴仓库中,而非langchain-community仓库,您需要一个api_key。您可以在 Unstructured API 密钥页面生成一个免费密钥。- Unstructured 的 SDK 文档可在此处找到: https://docs.unstructured.io/api-reference/api-services/sdk
-
要完全在本地运行,请使用
pip install unstructured安装开源 Python 包,并使用pip install langchain-community,然后使用与上述相同的UnstructuredLoader。- 您可以使用 extras 安装特定于文档的依赖项,例如
pip install "unstructured[docx]"。在完整安装文档中了解更多关于 extras 的信息。 - 要安装所有文档类型的依赖项,请使用
pip install "unstructured[all-docs]"。
- 您可以使用 extras 安装特定于文档的依赖项,例如
-
如果您的系统上尚未提供以下系统依赖项,请使用例如
brew install(适用于 Mac)进行安装。 根据您正在解析的文档类型,您可能不需要所有这些依赖项。libmagic-dev(文件类型检测)poppler-utils(图像和 PDF)tesseract-ocr(图像和 PDF)qpdf(PDF)libreoffice(MS Office 文档)pandoc(EPUB)
- 在本地运行时,Unstructured 还建议使用 Docker 按照此指南操作,以确保所有系统依赖项都已正确安装。
数据加载器
Unstructured 的主要用途是在数据加载器中。
UnstructuredLoader
查看使用示例,了解如何使用此加载器进行本地分区以及通过无服务器 Unstructured API 进行远程分区。UnstructuredCHMLoader
CHM 代表 Microsoft Compiled HTML Help。
UnstructuredCSVLoader
逗号分隔值(CSV)文件是一种使用逗号分隔值的分隔文本文件。文件的每一行都是一条数据记录。每条记录由一个或多个字段组成,字段之间用逗号分隔。
查看使用示例。
UnstructuredEmailLoader
查看使用示例。UnstructuredEPubLoader
EPUB 是一种使用“.epub”文件扩展名的电子书文件格式。该术语是 electronic publication 的缩写,有时也写作 ePub。EPUB 被许多电子阅读器支持,并且大多数智能手机、平板电脑和计算机都有兼容的软件可用。
查看使用示例。
UnstructuredExcelLoader
查看使用示例。UnstructuredFileIOLoader
查看使用示例。UnstructuredHTMLLoader
UnstructuredImageLoader
查看使用示例。UnstructuredMarkdownLoader
查看使用示例。UnstructuredODTLoader
办公应用程序开放文档格式 (ODF),也称为 OpenDocument,是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使用 ZIP 压缩的 XML 文件。其开发目标是提供一个开放的、基于 XML 的文件格式规范,用于办公应用程序。
查看使用示例。
UnstructuredOrgModeLoader
Org Mode 文档是一种文档编辑、格式化和组织模式,专为在自由软件文本编辑器 Emacs 中进行笔记、规划和创作而设计。 查看使用示例。UnstructuredPDFLoader
UnstructuredPowerPointLoader
查看使用示例。UnstructuredRSTLoader
reStructured Text(RST)文件是一种用于文本数据的文件格式,主要在 Python 编程语言社区中用于技术文档。
查看使用示例。
UnstructuredRTFLoader
在 API 文档中查看使用示例。UnstructuredTSVLoader
制表符分隔值(TSV)文件是一种简单的、基于文本的文件格式,用于存储表格数据。记录由换行符分隔,记录中的值由制表符分隔。
查看使用示例。
UnstructuredURLLoader
查看使用示例。UnstructuredWordDocumentLoader
查看使用示例。UnstructuredXMLLoader
查看使用示例。将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时答案。

