Apify Actors 是为广泛的网页抓取、爬取和数据提取任务而设计的云程序。这些 actor 促进了从网络自动收集数据,使用户能够高效地提取、处理和存储信息。actor 可用于执行诸如抓取电子商务网站的产品详情、监控价格变化或收集搜索引擎结果等任务。它们与 Apify Datasets 无缝集成,允许将 actor 收集的结构化数据以 JSON、CSV 或 Excel 等格式存储、管理和导出,以供进一步分析或使用。
概述
本笔记本将引导您了解如何将 Apify Actors 与 LangChain 结合使用,以自动化网页抓取和数据提取。langchain-apify 包将 Apify 的云工具与 LangChain 代理集成,为 AI 应用程序实现高效的数据收集和处理。
集成详情
| 类 | 包 | 可序列化 | JS 支持 | 版本 |
|---|---|---|---|---|
ApifyActorsTool | langchain-apify | ✅ | ✅ |
工具特性
| 返回制品 | 原生异步 | 返回数据 | 定价 |
|---|---|---|---|
| ❌ | ✅ | Actor 输出(因 Actor 而异) | 按使用量付费,提供免费层级 |
设置
此集成位于 langchain-apify 包中。可以使用 pip 安装该包。先决条件
定价
Apify 使用按使用量付费的定价模式,并提供免费层级。 定价因 Actor 而异——有些 Actor 是免费的(您只需支付平台使用费),而其他 Actor 则按结果或事件收费。实例化
在这里,我们实例化ApifyActorsTool 以便能够调用 RAG Web Browser Apify Actor。此 Actor 为 AI 和 LLM 应用程序提供网页浏览功能,类似于 ChatGPT 中的网页浏览功能。来自 Apify Store 的任何 Actor 都可以以这种方式使用。
调用
ApifyActorsTool 接受一个参数,即 run_input——一个作为运行输入传递给 Actor 的字典。运行输入模式文档可以在 Actor 详情页面的输入部分找到。参见 RAG Web Browser 输入模式。
链式调用
我们可以将创建的工具提供给一个代理。当被要求搜索信息时,代理将调用 Apify Actor,该 Actor 将搜索网络,然后检索搜索结果。其他 Actor 示例
Apify Store 包含数千个预构建的 Actor。以下是其他一些流行 Actor 的示例:Instagram Scraper
Google Search Results Scraper
何时使用 Apify
当您需要以下内容时,Apify 是理想的选择:- 访问数千个预构建的 Actor,适用于各种平台(社交媒体、电子商务、搜索引擎等)
- 自定义网页抓取和自动化工作流,超越简单搜索
- 无基础设施抓取(无服务器平台处理扩展和维护)
- 灵活的 Actor 生态系统 – 运行来自 Apify Store 的任何 Actor
API 参考
有关如何使用此集成的更多信息,请参阅 git 仓库 或 Apify 集成文档。使用 Apify MCP Server
不确定使用哪个 Actor 或它需要什么参数? Apify MCP(模型上下文协议)服务器 可以帮助您发现可用的 Actor,探索其输入模式,并通过模型上下文协议理解参数要求。 要将 Apify MCP 服务器与 LangChain 一起使用:将这些文档 通过 MCP 连接到 Claude、VSCode 等,以获取实时答案。

