Skip to main content
文档加载器提供了一个标准接口,用于将来自不同数据源(如 Slack、Notion 或 Google Drive)的数据读取为 LangChain 的 Document 格式。 这确保了无论数据来源如何,都能以一致的方式进行处理。 所有文档加载器均实现了 BaseLoader 接口。

接口

每个文档加载器可以定义其自己的参数,但它们共享一套通用 API:
  • load() – 一次性加载所有文档。
  • lazy_load() – 惰性流式加载文档,适用于大型数据集。
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
    ...  # Integration-specific parameters here
)

# Load all documents
documents = loader.load()

# For large datasets, lazily load documents
for document in loader.lazy_load():
    print(document)

按类别浏览

网页

以下文档加载器支持加载网页内容。
文档加载器描述包/API
Web使用 urllib 和 BeautifulSoup 加载并解析 HTML 网页
Unstructured使用 Unstructured 加载并解析网页
RecursiveURL从根 URL 递归抓取所有子链接
Sitemap抓取指定站点地图上的所有页面
Spider返回适合 LLM 使用数据的爬虫与抓取工具API
Firecrawl可本地部署的 API 服务API
Apify Dataset从 Apify 数据集加载文档API
Docling使用 Docling 加载并解析网页
Hyperbrowser运行和扩展无头浏览器的平台,可用于抓取/爬取任意网站API
AgentQL使用 AgentQL 查询或自然语言提示,从任意网页进行网页交互和结构化数据提取API

PDF

以下文档加载器支持加载 PDF 文档。
文档加载器描述包/API
PyPDF使用 pypdf 加载并解析 PDF
Unstructured使用 Unstructured 开源库加载 PDF
Amazon Textract使用 AWS API 加载 PDFAPI
MathPix使用 MathPix 加载 PDF
PDFPlumber使用 PDFPlumber 加载 PDF 文件
PyPDFDirectry加载包含 PDF 文件的目录
PyPDFium2使用 PyPDFium2 加载 PDF 文件
PyMuPDF使用 PyMuPDF 加载 PDF 文件
PyMuPDF4LLM使用 PyMuPDF4LLM 将 PDF 内容转换为 Markdown
PDFMiner使用 PDFMiner 加载 PDF 文件
Upstage Document Parse Loader使用 UpstageDocumentParseLoader 加载 PDF 文件
Docling使用 Docling 加载 PDF 文件
UnDatasIO使用 UnDatasIO 加载 PDF 文件
OpenDataLoader PDF使用 OpenDataLoader PDF 加载 PDF 文件

云服务提供商

以下文档加载器支持从主流云服务提供商加载文档。
文档加载器描述合作伙伴包API 参考
AWS S3 Directory从 AWS S3 目录加载文档S3DirectoryLoader
AWS S3 File从 AWS S3 文件加载文档S3FileLoader
Azure AI Data从 Azure AI 服务加载文档AzureAIDataLoader
Azure Blob Storage从 Azure Blob 存储加载文档AzureBlobStorageLoader
Dropbox从 Dropbox 加载文档DropboxLoader
Google Cloud Storage Directory从 GCS 存储桶加载文档GCSDirectoryLoader
Google Cloud Storage File从 GCS 文件对象加载文档GCSFileLoader
Google Drive从 Google Drive 加载文档(仅限 Google Docs)GoogleDriveLoader
Huawei OBS Directory从华为对象存储服务目录加载文档OBSDirectoryLoader
Huawei OBS File从华为对象存储服务文件加载文档OBSFileLoader
Microsoft OneDrive从 Microsoft OneDrive 加载文档OneDriveLoader
Microsoft SharePoint从 Microsoft SharePoint 加载文档SharePointLoader
Tencent COS Directory从腾讯云对象存储目录加载文档TencentCOSDirectoryLoader
Tencent COS File从腾讯云对象存储文件加载文档TencentCOSFileLoader

社交平台

以下文档加载器支持从不同社交媒体平台加载文档。

即时通讯服务

以下文档加载器支持从不同即时通讯平台加载数据。

生产力工具

以下文档加载器支持从常用生产力工具加载数据。

常见文件类型

以下文档加载器支持从常见数据格式加载数据。

所有文档加载器

acreom

AgentQLLoader

AirbyteLoader

Airtable

Alibaba Cloud MaxCompute

Amazon Textract

Apify Dataset

ArxivLoader

AssemblyAI Audio Transcripts

AstraDB

Async Chromium

AsyncHtml

Athena

AWS S3 Directory

AWS S3 File

AZLyrics

Azure AI Data

Azure Blob Storage

Azure AI Document Intelligence

BibTeX

BiliBili

Blackboard

Blockchain

Box

Brave Search

Browserbase

Browserless

BSHTMLLoader

Cassandra

ChatGPT Data

College Confidential

Concurrent Loader

Confluence

CoNLL-U

Copy Paste

Couchbase

CSV

Cube Semantic Layer

Datadog Logs

Dedoc

Diffbot

Discord

Docling

Docugami

Docusaurus

Dropbox

Email

EPub

Etherscan

EverNote

Facebook Chat

Fauna

Figma

FireCrawl

Geopandas

Git

GitBook

GitHub

Glue Catalog

Google AlloyDB for PostgreSQL

Google BigQuery

Google Bigtable

Google Cloud SQL for SQL Server

Google Cloud SQL for MySQL

Google Cloud SQL for PostgreSQL

Google Cloud Storage Directory

Google Cloud Storage File

Google Firestore in Datastore Mode

Google Drive

Google El Carro for Oracle Workloads

Google Firestore (Native Mode)

Google Memorystore for Redis

Google Spanner

Google Speech-to-Text

Grobid

Gutenberg

Hacker News

Huawei OBS Directory

Huawei OBS File

HuggingFace Dataset

HyperbrowserLoader

iFixit

Images

Image Captions

IMSDb

Iugu

Joplin

JSONLoader

Jupyter Notebook

Kinetica

lakeFS

LangSmith

LarkSuite (FeiShu)

LLM Sherpa

Mastodon

MathPixPDFLoader

MediaWiki Dump

Merge Documents Loader

MHTML

Microsoft Excel

Microsoft OneDrive

Microsoft OneNote

Microsoft PowerPoint

Microsoft SharePoint

Microsoft Word

Near Blockchain

Modern Treasury

MongoDB

Needle Document Loader

News URL

Notion DB

Nuclia

Obsidian

OpenDataLoader PDF

Open Document Format (ODT)

Open City Data

Oracle Autonomous Database

Oracle AI Database

Org-mode

Outline Document Loader

PaddleOCR-VL

Pandas DataFrame

PDFMinerLoader

PDFPlumber

Pebblo Safe DocumentLoader

Polaris AI DataInsight

Polars DataFrame

Dell PowerScale

Psychic

PubMed

PyMuPDFLoader

PyMuPDF4LLM

PyPDFDirectoryLoader

PyPDFium2Loader

PyPDFLoader

PySpark

Quip

ReadTheDocs Documentation

Recursive URL

Reddit

Roam

Rockset

rspace

RSS Feeds

RST

scrapfly

ScrapingAnt

SingleStore

Sitemap

Slack

Snowflake

Soniox

Source Code

Spider

Spreedly

Stripe

Subtitle

SurrealDB

Telegram

Tencent COS Directory

Tencent COS File

TensorFlow Datasets

TiDB

2Markdown

TOML

Trello

TSV

Twitter

UnDatasIO

Unstructured

UnstructuredMarkdownLoader

UnstructuredPDFLoader

Upstage

URL

Vsdx

Weather

WebBaseLoader

WhatsApp Chat

Wikipedia

UnstructuredXMLLoader

Xorbits Pandas DataFrame

YouTube Audio

YouTube Transcripts

YoutubeLoaderDL

Yuque

ZeroxPDFLoader