概述
Apify 是一个用于网络爬取和数据提取的云平台,它提供了一个包含超过 10,000 个现成应用的生态系统,这些应用被称为 Actor,适用于各种网络爬取、抓取和数据提取用例。 本指南展示如何从 Apify 数据集加载文档:这是一个可扩展的仅追加存储,专为存储结构化的网络爬取结果(如产品列表或 Google SERP)而构建,然后可以将它们导出为 JSON、CSV 或 Excel 等各种格式。 数据集通常用于保存不同 Actor 的结果。例如:- Website Content Crawler Actor 深度爬取文档、知识库、帮助中心或博客等网站,并将网页的文本内容存储到数据集中
- RAG Web Browser Actor 查询 Google 搜索,抓取结果中的前 N 个页面,并以 Markdown 格式返回清理后的内容,供大型语言模型进一步处理
集成详情
加载器特性
| 来源 | 文档延迟加载 | 原生异步支持 |
|---|---|---|
| Apify 数据集 | ❌ | ❌ |
设置
凭证
你需要注册一个 Apify 账户 并获取你的 Apify API 令牌。将其设置为环境变量:安装
你首先需要安装官方的 Apify 客户端和 LangChain 包:npm
定价
许多 Actor 支持按事件付费 (PPE) 定价,你只需为 Actor 作者定义的明确事件付费(例如,按数据集条目计费)。 这对于需要清晰、按操作计费的代理工作负载来说是一个不错的选择。 Apify 还提供按使用量付费的定价模式,并提供免费套餐。 定价因 Actor 而异——有些 Actor 是免费的(你只需支付平台使用费),而其他 Actor 则按结果或事件收费。详情请参阅 Apify 定价。用法
从新数据集(爬取网站并将数据存储在 Apify 数据集中)
如果你在 Apify 平台上还没有现有的数据集,你需要通过调用一个 Actor 并等待结果来初始化文档加载器。 在下面的示例中,我们使用 Website Content Crawler Actor 来爬取 LangChain 文档,将结果存储在 Apify 数据集中,然后使用ApifyDatasetLoader 加载该数据集。
为了演示,我们将使用快速的 Cheerio 爬虫类型,并将爬取的页面数量限制为 10。
注意: 运行 Website Content Crawler 可能需要一些时间,具体取决于网站的大小。对于大型网站,可能需要几个小时甚至几天!
以下是一个示例:
何时使用 Apify
当你需要以下功能时,Apify 是理想的选择:- 访问数千个预构建的 Actor,适用于各种平台(社交媒体、电子商务、搜索引擎等)
- 超越简单搜索的自定义网络爬取和自动化工作流
- 灵活的 Actor 生态系统:运行来自 Apify Store 的任何 Actor
从现有数据集
如果你已经运行过一个 Actor 并且在 Apify 平台上有一个现有的数据集,你可以直接使用构造函数初始化文档加载器其他 Actor 示例
Apify Store 包含数千个预构建的 Actor。以下是你可以与文档加载器一起使用的其他流行 Actor 示例:Instagram Scraper
Google Search Results Scraper
使用 Apify MCP 服务器
不确定使用哪个 Actor 或它需要什么参数? Apify MCP(模型上下文协议)服务器可以帮助你发现可用的 Actor,探索它们的输入模式,并理解参数要求。 通过 HTTP 连接到 Apify MCP 服务器时,请在请求头中包含你的 Apify 令牌:将这些文档连接到 Claude、VSCode 等,通过 MCP 获取实时答案。

