- 即时可扩展性 - 在几秒钟内启动数百个浏览器会话,无需担心基础设施问题
- 简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝配合
- 强大的 API - 用于抓取/爬取任意网站的易用 API,以及更多功能
- 绕过反爬虫措施 - 内置隐身模式、广告拦截、自动验证码解决和轮换代理
主要功能
抓取(Scrape)
Hyperbrowser 提供强大的抓取功能,可让你从任何网页提取数据。抓取工具可将网页内容转换为 Markdown 或 HTML 等结构化格式,便于处理和分析数据。爬取(Crawl)
爬取功能使你能够自动遍历网站的多个页面。你可以设置页面限制等参数,以控制爬取器对网站的探索程度,并收集其访问的每个页面的数据。提取(Extract)
Hyperbrowser 的提取功能利用 AI 根据你定义的 Schema 从网页中提取特定信息。这使你可以将非结构化的网页内容转换为完全符合你要求的结构化数据。概览
集成详情
| 工具 | 包 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
| Crawl Tool | langchain-hyperbrowser | ❌ | ❌ | ❌ |
| Scrape Tool | langchain-hyperbrowser | ❌ | ❌ | ❌ |
| Extract Tool | langchain-hyperbrowser | ❌ | ❌ | ❌ |
设置
要访问 Hyperbrowser 网页工具,你需要安装langchain-hyperbrowser 集成包,并创建一个 Hyperbrowser 账户并获取 API 密钥。
凭据
前往 Hyperbrowser 注册并生成 API 密钥。完成后设置 HYPERBROWSER_API_KEY 环境变量:安装
安装 langchain-hyperbrowser。实例化
Crawl 工具
HyperbrowserCrawlTool 是一个强大的工具,可以从给定的 URL 开始爬取整个网站。它支持可配置的页面限制和抓取选项。
Scrape 工具
HyperbrowserScrapeTool 是一个可以从网页抓取内容的工具。它支持 Markdown 和 HTML 两种输出格式,以及元数据提取。
Extract 工具
HyperbrowserExtractTool 是一个强大的工具,使用 AI 从网页中提取结构化数据。它可以根据预定义的 Schema 提取信息。
调用
基本用法
Crawl 工具
Scrape 工具
Extract 工具
使用自定义选项
带自定义选项的 Crawl 工具
带自定义选项的 Scrape 工具
带自定义 Schema 的 Extract 工具
异步用法
所有工具均支持异步用法:在智能体中使用
以下是如何在智能体中使用任意网页工具:配置选项
通用选项
所有工具均支持以下基本配置选项:url:要处理的 URLsession_options:浏览器会话配置use_proxy:是否使用代理solve_captchas:是否自动解决验证码accept_cookies:是否接受 Cookie
工具专属选项
Crawl 工具
max_pages:最大爬取页面数scrape_options:每页的抓取选项formats:输出格式列表(markdown、html)
Scrape 工具
scrape_options:页面的抓取选项formats:输出格式列表(markdown、html)
Extract 工具
schema:定义提取结构的 Pydantic 模型extraction_prompt:用于提取的自然语言提示
API 参考
Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

