Skip to main content
Spider最快的爬虫。它能将任何网站转换为纯 HTML、markdown、元数据或文本,同时允许你使用 AI 执行自定义操作进行爬取。

概述

Spider 允许你使用高性能代理来防止检测,缓存 AI 操作,提供爬取状态的 webhook,以及定时爬取等… 本指南展示如何使用 Spider 爬取/抓取网站,并使用 LangChain 中的 SpiderLoader 加载 LLM 就绪的文档。

设置

spider.cloud 获取你自己的 Spider API 密钥。

用法

以下是使用 SpiderLoader 的示例: Spider 提供两种抓取模式:scrape(抓取)和 crawl(爬取)。scrape 仅获取所提供 URL 的内容,而 crawl 则获取所提供 URL 的内容并深入爬取子页面。
import { SpiderLoader } from "@langchain/community/document_loaders/web/spider";

const loader = new SpiderLoader({
  url: "https://spider.cloud", // 要抓取的 URL
  apiKey: process.env.SPIDER_API_KEY, // 可选,默认为环境变量中的 `SPIDER_API_KEY`。
  mode: "scrape", // 运行爬虫的模式。可以是 "scrape" 用于单个 URL,或 "crawl" 用于深入抓取子页面
  // params: {
  //   // 基于 Spider API 文档的可选参数
  //   // API 文档请访问 https://spider.cloud/docs/api
  // },
});

const docs = await loader.load();

附加参数

所有可用的 params 请参阅 Spider 文档