BaseLoader 接口。
接口
每个文档加载器可以定义其自己的参数,但它们共享一套通用 API:load()– 一次性加载所有文档。lazy_load()– 惰性流式加载文档,适用于大型数据集。
按类别浏览
网页
以下文档加载器支持加载网页内容。| 文档加载器 | 描述 | 包/API |
|---|---|---|
| Web | 使用 urllib 和 BeautifulSoup 加载并解析 HTML 网页 | 包 |
| Unstructured | 使用 Unstructured 加载并解析网页 | 包 |
| RecursiveURL | 从根 URL 递归抓取所有子链接 | 包 |
| Sitemap | 抓取指定站点地图上的所有页面 | 包 |
| Spider | 返回适合 LLM 使用数据的爬虫与抓取工具 | API |
| Firecrawl | 可本地部署的 API 服务 | API |
| Apify Dataset | 从 Apify 数据集加载文档 | API |
| Docling | 使用 Docling 加载并解析网页 | 包 |
| Hyperbrowser | 运行和扩展无头浏览器的平台,可用于抓取/爬取任意网站 | API |
| AgentQL | 使用 AgentQL 查询或自然语言提示,从任意网页进行网页交互和结构化数据提取 | API |
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| PyPDF | 使用 pypdf 加载并解析 PDF | 包 |
| Unstructured | 使用 Unstructured 开源库加载 PDF | 包 |
| Amazon Textract | 使用 AWS API 加载 PDF | API |
| MathPix | 使用 MathPix 加载 PDF | 包 |
| PDFPlumber | 使用 PDFPlumber 加载 PDF 文件 | 包 |
| PyPDFDirectry | 加载包含 PDF 文件的目录 | 包 |
| PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
| PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
| PyMuPDF4LLM | 使用 PyMuPDF4LLM 将 PDF 内容转换为 Markdown | 包 |
| PDFMiner | 使用 PDFMiner 加载 PDF 文件 | 包 |
| Upstage Document Parse Loader | 使用 UpstageDocumentParseLoader 加载 PDF 文件 | 包 |
| Docling | 使用 Docling 加载 PDF 文件 | 包 |
| UnDatasIO | 使用 UnDatasIO 加载 PDF 文件 | 包 |
| OpenDataLoader PDF | 使用 OpenDataLoader PDF 加载 PDF 文件 | 包 |
云服务提供商
以下文档加载器支持从主流云服务提供商加载文档。| 文档加载器 | 描述 | 合作伙伴包 | API 参考 |
|---|---|---|---|
| AWS S3 Directory | 从 AWS S3 目录加载文档 | ❌ | S3DirectoryLoader |
| AWS S3 File | 从 AWS S3 文件加载文档 | ❌ | S3FileLoader |
| Azure AI Data | 从 Azure AI 服务加载文档 | ❌ | AzureAIDataLoader |
| Azure Blob Storage | 从 Azure Blob 存储加载文档 | ✅ | AzureBlobStorageLoader |
| Dropbox | 从 Dropbox 加载文档 | ❌ | DropboxLoader |
| Google Cloud Storage Directory | 从 GCS 存储桶加载文档 | ✅ | GCSDirectoryLoader |
| Google Cloud Storage File | 从 GCS 文件对象加载文档 | ✅ | GCSFileLoader |
| Google Drive | 从 Google Drive 加载文档(仅限 Google Docs) | ✅ | GoogleDriveLoader |
| Huawei OBS Directory | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
| Huawei OBS File | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
| Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
| Microsoft SharePoint | 从 Microsoft SharePoint 加载文档 | ❌ | SharePointLoader |
| Tencent COS Directory | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
| Tencent COS File | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器支持从不同社交媒体平台加载文档。即时通讯服务
以下文档加载器支持从不同即时通讯平台加载数据。生产力工具
以下文档加载器支持从常用生产力工具加载数据。常见文件类型
以下文档加载器支持从常见数据格式加载数据。所有文档加载器
acreom
AgentQLLoader
AirbyteLoader
Airtable
Alibaba Cloud MaxCompute
Amazon Textract
Apify Dataset
ArxivLoader
AssemblyAI Audio Transcripts
AstraDB
Async Chromium
AsyncHtml
Athena
AWS S3 Directory
AWS S3 File
AZLyrics
Azure AI Data
Azure Blob Storage
Azure AI Document Intelligence
BibTeX
BiliBili
Blackboard
Blockchain
Box
Brave Search
Browserbase
Browserless
BSHTMLLoader
Cassandra
ChatGPT Data
College Confidential
Concurrent Loader
Confluence
CoNLL-U
Copy Paste
Couchbase
CSV
Cube Semantic Layer
Datadog Logs
Dedoc
Diffbot
Discord
Docling
Docugami
Docusaurus
Dropbox
EPub
Etherscan
EverNote
Facebook Chat
Fauna
Figma
FireCrawl
Geopandas
Git
GitBook
GitHub
Glue Catalog
Google AlloyDB for PostgreSQL
Google BigQuery
Google Bigtable
Google Cloud SQL for SQL Server
Google Cloud SQL for MySQL
Google Cloud SQL for PostgreSQL
Google Cloud Storage Directory
Google Cloud Storage File
Google Firestore in Datastore Mode
Google Drive
Google El Carro for Oracle Workloads
Google Firestore (Native Mode)
Google Memorystore for Redis
Google Spanner
Google Speech-to-Text
Grobid
Gutenberg
Hacker News
Huawei OBS Directory
Huawei OBS File
HuggingFace Dataset
HyperbrowserLoader
iFixit
Images
Image Captions
IMSDb
Iugu
Joplin
JSONLoader
Jupyter Notebook
Kinetica
lakeFS
LangSmith
LarkSuite (FeiShu)
LLM Sherpa
Mastodon
MathPixPDFLoader
MediaWiki Dump
Merge Documents Loader
MHTML
Microsoft Excel
Microsoft OneDrive
Microsoft OneNote
Microsoft PowerPoint
Microsoft SharePoint
Microsoft Word
Near Blockchain
Modern Treasury
MongoDB
Needle Document Loader
News URL
Notion DB
Nuclia
Obsidian
OpenDataLoader PDF
Open Document Format (ODT)
Open City Data
Oracle Autonomous Database
Oracle AI Database
Org-mode
Outline Document Loader
PaddleOCR-VL
Pandas DataFrame
PDFMinerLoader
PDFPlumber
Pebblo Safe DocumentLoader
Polaris AI DataInsight
Polars DataFrame
Dell PowerScale
Psychic
PubMed
PyMuPDFLoader
PyMuPDF4LLM
PyPDFDirectoryLoader
PyPDFium2Loader
PyPDFLoader
PySpark
Quip
ReadTheDocs Documentation
Recursive URL
Roam
Rockset
rspace
RSS Feeds
RST
scrapfly
ScrapingAnt
SingleStore
Sitemap
Slack
Snowflake
Soniox
Source Code
Spider
Spreedly
Stripe
Subtitle
SurrealDB
Telegram
Tencent COS Directory
Tencent COS File
TensorFlow Datasets
TiDB
2Markdown
TOML
Trello
TSV
UnDatasIO
Unstructured
UnstructuredMarkdownLoader
UnstructuredPDFLoader
Upstage
URL
Vsdx
Weather
WebBaseLoader
WhatsApp Chat
Wikipedia
UnstructuredXMLLoader
Xorbits Pandas DataFrame
YouTube Audio
YouTube Transcripts
YoutubeLoaderDL
Yuque
ZeroxPDFLoader
将这些文档连接 到 Claude、VSCode 等工具,通过 MCP 获取实时答案。

