Skip to main content
Apify Dataset 是一种可扩展的仅追加存储,具有顺序访问能力,专为存储结构化的网页抓取结果而构建,例如产品列表或 Google SERP,然后将其导出为 JSON、CSV 或 Excel 等多种格式。数据集主要用于保存 Apify Actors(用于各种网页抓取、爬取和数据提取的无服务器云程序)的结果。
本笔记本展示如何将 Apify 数据集加载到 LangChain 中。

集成详情

可序列化JS 支持版本
ApifyDatasetLoaderlangchain-apifyPyPI - Version

加载器特性

数据源文档懒加载原生异步支持
Apify Dataset

前提条件

您需要在 Apify 平台上有一个现有的数据集。本示例展示如何加载由 Website Content Crawler 生成的数据集。
pip install -qU langchain langchain-apify langchain-openai
首先,将 ApifyDatasetLoader 导入您的源代码:
from langchain_apify import ApifyDatasetLoader
from langchain_core.documents import Document
找到您的 Apify API tokenOpenAI API key 并将其初始化为环境变量:
import os

os.environ["APIFY_TOKEN"] = "your-apify-token"
os.environ["OPENAI_API_KEY"] = "your-openai-api-key"

定价

Apify Actors 的定价方式因 Actor 而异。 许多 Actors 支持按事件付费(PPE)定价,您只需为 Actor 作者定义的显式事件付费(例如,按数据集条目付费)。这非常适合希望有清晰的按操作成本的 agent 工作负载。

将数据集条目映射到文档

接下来,定义一个函数,将 Apify 数据集记录字段映射为 LangChain Document 格式。 例如,如果您的数据集条目结构如下:
{
    "url": "https://apify.com",
    "text": "Apify is the best web scraping and automation platform."
}
下面代码中的映射函数将把它们转换为 LangChain Document 格式,以便您可以进一步与任何 LLM 模型结合使用(例如用于问答)。
loader = ApifyDatasetLoader(
    dataset_id="your-dataset-id",
    dataset_mapping_function=lambda dataset_item: Document(
        page_content=dataset_item["text"], metadata={"source": dataset_item["url"]}
    ),
)
data = loader.load()

问答示例

在本示例中,我们使用数据集中的数据来回答问题。
from langchain.indexes import VectorstoreIndexCreator
from langchain_apify import ApifyWrapper
from langchain_core.documents import Document
from langchain_core.vectorstores import InMemoryVectorStore
from langchain_openai import ChatOpenAI
from langchain_openai.embeddings import OpenAIEmbeddings
loader = ApifyDatasetLoader(
    dataset_id="your-dataset-id",
    dataset_mapping_function=lambda item: Document(
        page_content=item["text"] or "", metadata={"source": item["url"]}
    ),
)
index = VectorstoreIndexCreator(
    vectorstore_cls=InMemoryVectorStore, embedding=OpenAIEmbeddings()
).from_loaders([loader])
llm = ChatOpenAI(model="gpt-5-mini")
query = "What is Apify?"
result = index.query_with_sources(query, llm=llm)
print(result["answer"])
print(result["sources"])
 Apify is a platform for developing, running, and sharing serverless cloud programs. It enables users to create web scraping and automation tools and publish them on the Apify platform.

https://docs.apify.com/platform/actors, https://docs.apify.com/platform/actors/running/actors-in-store, https://docs.apify.com/platform/security, https://docs.apify.com/platform/actors/examples

使用 Apify MCP 服务器

不确定使用哪个 Actor 或其所需参数?Apify MCP(模型上下文协议)服务器可以帮助您发现可用的 Actors、探索其输入 schema 并了解参数要求。 通过 HTTP 连接到 Apify MCP 服务器时,请在请求头中包含您的 Apify token:
Authorization: Bearer <APIFY_TOKEN>
更多信息,请参阅 LangChain MCP 文档