Skip to main content
Apify 是一个用于网页抓取和数据提取的云平台, 提供了一个包含超过千种现成应用(称为 Actor)的生态系统, 涵盖各类抓取、爬取和提取用例。

概览

Apify 提供了数千个用于网页抓取、数据提取和自动化的预构建工具(Actor)。 该平台负责基础设施管理,让您可以专注于数据提取逻辑。

何时使用 Apify

  • 访问数千个预构建 Actor,适用于各种平台(社交媒体、电子商务、搜索引擎等)
  • 自定义网页抓取和自动化工作流,超越简单搜索
  • 灵活的 Actor 生态系统 — 可运行 Apify Store 中的任意 Actor
此集成使您能够在 Apify 平台上运行 Actor,并将其结果加载到 LangChain 中,为您的向量索引提供来自网络的文档和数据,例如从文档、博客或知识库网站生成答案。

安装与设置

  • 安装适用于 Python 的 LangChain Apify 包:
pip install langchain-apify
  • 获取您的 Apify API 令牌,并将其设置为环境变量(APIFY_TOKEN)或在构造函数中以 apify_api_token 参数传入。

工具

您可以使用 ApifyActorsTool 在 Agent 中调用 Apify Actor。
from langchain_apify import ApifyActorsTool
查看此 notebook 了解示例用法,以及 Apify LangGraph Agent Actor 模板中基于 LangGraph 的完整工具调用 Agent 示例。 有关如何使用此工具的更多信息,请访问 Apify 集成文档

封装器

您可以使用 ApifyWrapper 在 Apify 平台上运行 Actor。
from langchain_apify import ApifyWrapper
有关如何使用此封装器的更多信息,请参阅 Apify 集成文档

使用场景

  • 网页抓取:从网站、社交媒体、电商网站提取数据
  • 搜索引擎结果:抓取 Google、Bing 等搜索引擎
  • 数据收集:收集结构化数据用于分析和机器学习流水线
  • 内容聚合:从多个来源收集内容用于 RAG 应用

文档加载器

您还可以使用 ApifyDatasetLoader 从 Apify 数据集获取数据。
from langchain_apify import ApifyDatasetLoader
有关此加载器的详细说明,请参阅此 notebook

定价

Apify 采用按使用量或按事件计费模式,提供免费套餐。各 Actor 定价不同:
  • 部分 Actor 免费(仅收取平台算力费用)
  • 其他 Actor 按结果或事件计费
  • 按事件计费(PPE)定价:许多 Actor 支持 PPE 定价,适合希望在 Agent 部署中实现可预测的基于使用量计费的场景
  • 详情请参阅 Apify 定价
此集成的源代码可在 LangChain Apify 仓库中找到。

MCP 服务器

不确定使用哪个 Actor 或其所需参数? Apify 提供了一个 MCP(模型上下文协议)服务器,帮助您发现可用 Actor、浏览其输入 Schema 并了解参数要求。 通过 HTTP 连接到 Apify MCP 服务器时,请在请求头中包含您的 Apify 令牌:
Authorization: Bearer <APIFY_TOKEN>