Apify 数据集 是一个可扩展的仅追加存储,具有顺序访问功能,专为存储结构化网络抓取结果而设计,例如产品列表或 Google SERP,然后将其导出为 JSON、CSV 或 Excel 等各种格式。数据集主要用于保存 Apify Actors 的结果——用于各种网络抓取、爬取和数据提取用例的无服务器云程序。此笔记本展示了如何将 Apify 数据集加载到 LangChain。
集成详情
| 类 | 包 | 可序列化 | JS 支持 | 版本 |
|---|---|---|---|---|
ApifyDatasetLoader | langchain-apify | ❌ | ✅ |
加载器特性
| 源 | 文档延迟加载 | 原生异步支持 |
|---|---|---|
| Apify 数据集 | ❌ | ❌ |
先决条件
您需要在 Apify 平台上拥有一个现有的数据集。此示例展示了如何加载由 网站内容爬虫 生成的数据集。ApifyDatasetLoader 导入到您的源代码中:
定价
Apify Actors 的定价方式可能不同,具体取决于您运行的 Actor。 许多 Actor 支持 按事件付费 (PPE) 定价,您需要为 Actor 作者定义的明确事件付费(例如,每个数据集项)。这对于您希望明确每个操作成本的代理工作负载来说是一个很好的选择。将数据集项映射到文档
接下来,定义一个函数,将 Apify 数据集记录字段映射到 LangChainDocument 格式。
例如,如果您的数据集项结构如下:
Document 格式,以便您可以将它们与任何 LLM 模型进一步使用(例如,用于问答)。
问答示例
在此示例中,我们使用数据集中的数据来回答问题。使用 Apify MCP 服务器
不确定使用哪个 Actor 或它需要什么参数?Apify MCP(模型上下文协议)服务器 可以帮助您发现可用的 Actor,探索其输入模式,并了解参数要求。 通过 HTTP 连接到 Apify MCP 服务器时,在请求头中包含您的 Apify 令牌:连接这些文档 到 Claude、VSCode 等,通过 MCP 获取实时答案。

