- Google 搜索:支持对所有结果类型进行全面的 Google SERP 数据提取。
- 支持选择本地化 Google 域名(例如
google.com、google.ad),以获取特定地区的搜索结果。 - 支持分页以获取第一页之外的结果。
- 支持搜索结果过滤开关,用于控制是否排除重复或相似内容。
- 支持选择本地化 Google 域名(例如
- Google Trends:从 Google 获取关键词趋势数据,包括随时间的流行度、地区兴趣以及相关搜索。
- 支持多关键词比较。
- 支持多种数据类型:
interest_over_time、interest_by_region、related_queries和related_topics。 - 支持按特定 Google 属性(网页、YouTube、新闻、购物)进行过滤,以进行特定来源的趋势分析。
- 专为现代 JavaScript 密集型网站设计,支持动态内容提取。
- 全球高级代理支持,用于绕过地理限制并提高可靠性。
- Crawl(抓取):递归爬取网站及其链接页面,提取全站内容。
- 支持可配置的爬取深度和范围 URL 定向。
- Scrape(采集):高精度地从单个网页提取内容。
- 支持”仅主要内容”提取,排除广告、页脚及其他非必要元素。
- 支持对多个独立 URL 进行批量采集。
概述
集成详情
工具功能
| 原生异步 | 返回 artifact | 返回数据 |
|---|---|---|
| ✅ | ✅ | markdown, rawHtml, screenshot@fullPage, json, links, screenshot, html |
安装
该集成位于langchain-scrapeless 包中。
!pip install langchain-scrapeless
凭证
使用此工具需要 Scrapeless API 密钥。您可以将其设置为环境变量:实例化
ScrapelessCrawlerScrapeTool
ScrapelessCrawlerScrapeTool 允许您使用 Scrapeless 的 Crawler Scrape API 从一个或多个网站采集内容。您可以提取主要内容、控制格式、请求头、等待时间和输出类型。 该工具接受以下参数:urls(必填,List[str]):要采集的一个或多个网站 URL。formats(可选,List[str]):定义采集输出的格式。默认为['markdown']。选项包括:'markdown''rawHtml''screenshot@fullPage''json''links''screenshot''html'
only_main_content(可选,bool):是否仅返回页面主要内容,排除页眉、导航栏、页脚等。默认为 True。include_tags(可选,List[str]):要包含在输出中的 HTML 标签列表(例如['h1', 'p'])。若设为 None,则不显式包含任何标签。exclude_tags(可选,List[str]):要从输出中排除的 HTML 标签列表。若设为 None,则不显式排除任何标签。headers(可选,Dict[str, str]):随请求发送的自定义请求头(例如,用于 cookies 或 user-agent)。默认为 None。wait_for(可选,int):采集前等待的毫秒数。用于给页面充分加载时间。默认为0。timeout(可选,int):请求超时时间(毫秒)。默认为30000。
ScrapelessCrawlerCrawlTool
ScrapelessCrawlerCrawlTool 允许您使用 Scrapeless 的 Crawler Crawl API 从基础 URL 开始爬取网站。支持高级 URL 过滤、爬取深度控制、内容采集选项、请求头自定义等功能。 该工具接受以下参数:-
url(必填,str):开始爬取的基础 URL。 -
limit(可选,int):最大爬取页面数。默认为10000。 -
include_paths(可选,List[str]):要包含在爬取中的 URL 路径名正则表达式模式。只有匹配这些模式的 URL 才会被包含。例如,设置["blog/.*"]只会包含/blog/路径下的 URL。默认为 None。 -
exclude_paths(可选,List[str]):要从爬取中排除的 URL 路径名正则表达式模式。例如,设置["blog/.*"]会排除/blog/路径下的 URL。默认为 None。 -
max_depth(可选,int):相对于基础 URL 的最大爬取深度,按 URL 路径中斜杠数量计算。默认为10。 -
max_discovery_depth(可选,int):基于发现顺序的最大爬取深度。根页面和站点地图页面深度为0。例如,设置为1并忽略站点地图时,只会爬取输入的 URL 及其直接链接。默认为 None。 -
ignore_sitemap(可选,bool):爬取时是否忽略网站站点地图。默认为 False。 -
ignore_query_params(可选,bool):是否忽略查询参数差异以避免重复采集相似 URL。默认为 False。 -
deduplicate_similar_urls(可选,bool):是否对相似 URL 进行去重。默认为 True。 -
regex_on_full_url(可选,bool):正则匹配是否应用于完整 URL 而非仅路径部分。默认为 True。 -
allow_backward_links(可选,bool):是否允许爬取 URL 层次结构之外的反向链接。默认为 False。 -
allow_external_links(可选,bool):是否允许爬取外部网站的链接。默认为 False。 -
delay(可选,int):页面采集之间的延迟秒数,用于遵守速率限制。默认为1。 -
formats(可选,List[str]):采集内容的格式。默认为 [“markdown”]。选项包括:'markdown''rawHtml''screenshot@fullPage''json''links''screenshot''html'
-
only_main_content(可选,bool):是否仅返回主要内容,排除页眉、导航栏、页脚等。默认为 True。 -
include_tags(可选,List[str]):要包含在输出中的 HTML 标签列表(例如['h1', 'p'])。默认为 None(无显式包含过滤器)。 -
exclude_tags(可选,List[str]):要从输出中排除的 HTML 标签列表。默认为 None(无显式排除过滤器)。 -
headers(可选,Dict[str, str]):随请求发送的自定义 HTTP 请求头,例如 cookies 或 user-agent 字符串。默认为 None。 -
wait_for(可选,int):采集内容前等待的毫秒数,允许页面完全加载。默认为0。 -
timeout(可选,int):请求超时时间(毫秒)。默认为30000。
调用
ScrapelessCrawlerCrawlTool
带参数使用
在 Agent 中使用
ScrapelessCrawlerScrapeTool
带参数使用
带参数的高级使用
在 Agent 中使用
API 参考
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

