Apify 是一个用于网页抓取和数据提取的云平台, 提供了一个包含超过千种现成应用(称为 Actor)的生态系统, 涵盖各类抓取、爬取和提取用例。
概览
Apify 提供了数千个用于网页抓取、数据提取和自动化的预构建工具(Actor)。 该平台负责基础设施管理,让您可以专注于数据提取逻辑。何时使用 Apify
- 访问数千个预构建 Actor,适用于各种平台(社交媒体、电子商务、搜索引擎等)
- 自定义网页抓取和自动化工作流,超越简单搜索
- 灵活的 Actor 生态系统 — 可运行 Apify Store 中的任意 Actor
Apify 平台上运行 Actor,并将其结果加载到 LangChain 中,为您的向量索引提供来自网络的文档和数据,例如从文档、博客或知识库网站生成答案。
安装与设置
- 安装适用于 Python 的 LangChain Apify 包:
- 获取您的 Apify API 令牌,并将其设置为环境变量(
APIFY_TOKEN)或在构造函数中以apify_api_token参数传入。
工具
您可以使用ApifyActorsTool 在 Agent 中调用 Apify Actor。
封装器
您可以使用ApifyWrapper 在 Apify 平台上运行 Actor。
使用场景
- 网页抓取:从网站、社交媒体、电商网站提取数据
- 搜索引擎结果:抓取 Google、Bing 等搜索引擎
- 数据收集:收集结构化数据用于分析和机器学习流水线
- 内容聚合:从多个来源收集内容用于 RAG 应用
文档加载器
您还可以使用ApifyDatasetLoader 从 Apify 数据集获取数据。
定价
Apify 采用按使用量或按事件计费模式,提供免费套餐。各 Actor 定价不同:- 部分 Actor 免费(仅收取平台算力费用)
- 其他 Actor 按结果或事件计费
- 按事件计费(PPE)定价:许多 Actor 支持 PPE 定价,适合希望在 Agent 部署中实现可预测的基于使用量计费的场景
- 详情请参阅 Apify 定价
MCP 服务器
不确定使用哪个 Actor 或其所需参数? Apify 提供了一个 MCP(模型上下文协议)服务器,帮助您发现可用 Actor、浏览其输入 Schema 并了解参数要求。 通过 HTTP 连接到 Apify MCP 服务器时,请在请求头中包含您的 Apify 令牌:通过 MCP 将这些文档接入 Claude、VSCode 等工具,获取实时解答。

