接口
每个文档加载器可能定义自己的参数,但它们共享一个通用的 API:load():一次性加载所有文档。loadAndSplit():一次性加载所有文档,并将其分割成更小的文档。
按类别
LangChain.js 以两种不同的方式对文档加载器进行分类:文件加载器
如果您想贡献一个集成,请参阅贡献集成。
PDF 文件
| 文档加载器 | 描述 | 包/API |
|---|---|---|
PDFLoader | 使用 pdf-parse 加载和解析 PDF 文件 | 包 |
常见文件类型
专用文件加载器
| 文档加载器 | 描述 | 包/API |
|---|---|---|
DirectoryLoader | 从目录加载所有文件,支持自定义加载器映射 | 包 |
UnstructuredLoader | 使用 Unstructured API 加载多种文件类型 | API |
MultiFileLoader | 从多个独立文件路径加载数据 | 包 |
ChatGPT | 加载 ChatGPT 对话导出 | 包 |
| Notion Markdown | 加载导出为 Markdown 的 Notion 页面 | 包 |
OracleDocLoader | 摄取 Oracle AI Vector Search 表或 Oracle Text 支持的文件 | 包 |
| OpenAI Whisper Audio | 使用 OpenAI Whisper API 转录音频文件 | API |
Web 加载器
网页
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
Cheerio | 使用 Cheerio 加载网页(轻量级,不执行 JavaScript) | ✅ | 包 |
Playwright | 使用 Playwright 加载动态网页(支持 JavaScript 渲染) | ❌ | 包 |
Puppeteer | 使用 Puppeteer 加载动态网页(无头 Chrome) | ❌ | 包 |
FireCrawl | 爬取网站并将其转换为 LLM 就绪的 Markdown | ✅ | API |
Spider | 快速爬虫,将网站转换为 HTML、Markdown 或文本 | ✅ | API |
RecursiveUrlLoader | 递归加载网页,遵循链接 | ❌ | 包 |
Sitemap | 从 sitemap.xml 加载所有页面 | ✅ | 包 |
Browserbase | 使用具有隐身模式的托管无头浏览器加载网页 | ✅ | API |
WebPDFLoader | 在 Web 环境中加载 PDF 文件 | ✅ | 包 |
云提供商
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
S3 | 从 AWS S3 存储桶加载文件 | ❌ | 包 |
| Azure Blob Storage Container | 从 Azure Blob Storage 容器加载所有文件 | ❌ | 包 |
| Azure Blob Storage File | 从 Azure Blob Storage 加载单个文件 | ❌ | 包 |
| Google Cloud Storage | 从 Google Cloud Storage 存储桶加载文件 | ❌ | 包 |
| Google Cloud SQL for PostgreSQL | 从 Cloud SQL PostgreSQL 数据库加载文档 | ✅ | 包 |
生产力工具
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
| Notion API | 通过 API 加载 Notion 页面和数据库 | ✅ | API |
Figma | 加载 Figma 文件数据 | ✅ | API |
Confluence | 从 Confluence 空间加载页面 | ❌ | API |
GitHub | 从 GitHub 仓库加载文件 | ✅ | API |
GitBook | 加载 GitBook 文档页面 | ✅ | 包 |
Jira | 从 Jira 项目加载问题 | ❌ | API |
Airtable | 从 Airtable 基础加载记录 | ✅ | API |
Taskade | 加载 Taskade 项目数据 | ✅ | API |
搜索与数据 API
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
SearchAPI | 从 SearchAPI 加载网络搜索结果(Google、YouTube 等) | ✅ | API |
SerpApi | 从 SerpApi 加载网络搜索结果 | ✅ | API |
| Apify Dataset | 从 Apify 平台加载抓取的数据 | ✅ | API |
音频与视频
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
YouTube | 加载 YouTube 视频字幕 | ✅ | 包 |
AssemblyAI | 使用 AssemblyAI API 转录音频和视频文件 | ✅ | API |
Soniox | 使用 Soniox API 转录多语言音频文件,可选翻译 | ✅ | API |
Sonix | 使用 Sonix API 转录音频文件 | ❌ | API |
其他
| 文档加载器 | 描述 | Web 支持 | 包/API |
|---|---|---|---|
Couchbase | 使用 SQL++ 查询从 Couchbase 数据库加载文档 | ✅ | 包 |
LangSmith | 从 LangSmith 加载数据集和跟踪 | ✅ | API |
| Hacker News | 加载 Hacker News 帖子和评论 | ✅ | 包 |
IMSDB | 从互联网电影剧本数据库加载电影剧本 | ✅ | 包 |
| College Confidential | 从 College Confidential 加载大学信息 | ✅ | 包 |
| Blockchain Data | 通过 Sort.xyz API 加载区块链数据(NFT、交易) | ✅ | API |
所有文档加载器
Airtable
Apify Dataset
AssemblyAI Audio Transcript
Azure Blob Storage Container
Azure Blob Storage File
Blockchain Data
Browserbase
ChatGPT
Cheerio
College Confidential
Confluence
Couchbase
CSV
DirectoryLoader
DOCX
EPUB
Figma
FireCrawl
GitHub
GitBook
Google Cloud SQL for PostgreSQL
Google Cloud Storage
Hacker News
IMSDB
Jira
JSON
JSONLines
LangSmith
MultiFileLoader
Notion API
Notion Markdown
OpenAI Whisper Audio
OracleDocLoader
PDFLoader
Playwright
PPTX
Puppeteer
RecursiveUrlLoader
S3
SearchAPI
SerpApi
Sitemap
Soniox
Sonix Audio
Spider
Subtitles
Taskade
Text
UnstructuredLoader
WebPDFLoader
YouTube
将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时答案。

