Apify Dataset 是一种可扩展的仅追加存储,具有顺序访问能力,专为存储结构化的网页抓取结果而构建,例如产品列表或 Google SERP,然后将其导出为 JSON、CSV 或 Excel 等多种格式。数据集主要用于保存 Apify Actors(用于各种网页抓取、爬取和数据提取的无服务器云程序)的结果。本笔记本展示如何将 Apify 数据集加载到 LangChain 中。
集成详情
| 类 | 包 | 可序列化 | JS 支持 | 版本 |
|---|---|---|---|---|
| ApifyDatasetLoader | langchain-apify | ❌ | ✅ |
加载器特性
| 数据源 | 文档懒加载 | 原生异步支持 |
|---|---|---|
| Apify Dataset | ❌ | ❌ |
前提条件
您需要在 Apify 平台上有一个现有的数据集。本示例展示如何加载由 Website Content Crawler 生成的数据集。ApifyDatasetLoader 导入您的源代码:
定价
Apify Actors 的定价方式因 Actor 而异。 许多 Actors 支持按事件付费(PPE)定价,您只需为 Actor 作者定义的显式事件付费(例如,按数据集条目付费)。这非常适合希望有清晰的按操作成本的 agent 工作负载。将数据集条目映射到文档
接下来,定义一个函数,将 Apify 数据集记录字段映射为 LangChainDocument 格式。
例如,如果您的数据集条目结构如下:
Document 格式,以便您可以进一步与任何 LLM 模型结合使用(例如用于问答)。
问答示例
在本示例中,我们使用数据集中的数据来回答问题。使用 Apify MCP 服务器
不确定使用哪个 Actor 或其所需参数?Apify MCP(模型上下文协议)服务器可以帮助您发现可用的 Actors、探索其输入 schema 并了解参数要求。 通过 HTTP 连接到 Apify MCP 服务器时,请在请求头中包含您的 Apify token:Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

