Spider 集成

概述
设置
用法
附加参数

Spider 是最快的爬虫。它能将任何网站转换为纯 HTML、Markdown、元数据或文本，同时允许您使用 AI 以自定义操作进行爬取。

概述

Spider 允许您使用高性能代理来防止检测、缓存 AI 操作、用于爬取状态的 Webhook、计划爬取等… 本指南展示了如何使用 Spider 爬取/抓取网站，并使用 LangChain 中的 SpiderLoader 加载 LLM 就绪的文档。

设置

在 spider.cloud 获取您自己的 Spider API 密钥。

用法

以下是使用 SpiderLoader 的示例： Spider 提供两种抓取模式：scrape 和 crawl。Scrape 仅获取所提供 URL 的内容，而 crawl 会获取所提供 URL 的内容，并跟随子页面进行更深层次的爬取。

import { SpiderLoader } from "@langchain/community/document_loaders/web/spider";

const loader = new SpiderLoader({
  url: "https://spider.cloud", // 要抓取的 URL
  apiKey: process.env.SPIDER_API_KEY, // 可选，默认为环境中的 `SPIDER_API_KEY`。
  mode: "scrape", // 爬虫运行模式。可以是 "scrape"（单个 URL）或 "crawl"（跟随子页面进行更深层次的抓取）
  // params: {
  //   // 基于 Spider API 文档的可选参数
  //   // API 文档请访问 https://spider.cloud/docs/api
  // },
});

const docs = await loader.load();

附加参数

请参阅 Spider 文档了解所有可用的 params。

在 GitHub 上编辑此页面或提交问题。

通过 MCP 将这些文档连接到 Claude、VSCode 等工具以获取实时答案。

Popular Providers

General integrations

RAG integrations

概述

设置

用法

附加参数

Popular Providers

General integrations

RAG integrations

​概述

​设置

​用法

​附加参数

概述

设置

用法

附加参数