- 即时可扩展性 - 在几秒内启动数百个浏览器会话,无需担心基础设施问题
- 简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝协作
- 强大的 API - 易于使用的 API,用于抓取/爬取任何网站,以及更多功能
- 绕过反机器人措施 - 内置隐身模式、广告拦截、自动验证码解决和轮换代理
核心功能
抓取
Hyperbrowser 提供了强大的抓取功能,允许你从任何网页中提取数据。抓取工具可以将网页内容转换为 Markdown 或 HTML 等结构化格式,便于处理和分析数据。爬取
爬取功能使你能够自动浏览网站的多个页面。你可以设置页面限制等参数来控制爬虫探索网站的深度,从访问的每个页面收集数据。提取
Hyperbrowser 的提取功能使用 AI 根据你定义的模式从网页中提取特定信息。这使你能够将非结构化的网页内容转换为符合你确切要求的结构化数据。概览
集成详情
| 工具 | 包名 | 本地 | 可序列化 | JS 支持 |
|---|---|---|---|---|
| 爬取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
| 抓取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
| 提取工具 | langchain-hyperbrowser | ❌ | ❌ | ❌ |
设置
要访问 Hyperbrowser 网页工具,你需要安装langchain-hyperbrowser 集成包,并创建一个 Hyperbrowser 账户并获取 API 密钥。
凭证
前往 Hyperbrowser 注册并生成 API 密钥。完成后,设置 HYPERBROWSER_API_KEY 环境变量:安装
安装 langchain-hyperbrowser。实例化
爬取工具
HyperbrowserCrawlTool 是一个强大的工具,可以从给定的 URL 开始爬取整个网站。它支持可配置的页面限制和抓取选项。
抓取工具
HyperbrowserScrapeTool 是一个可以从网页抓取内容的工具。它支持 Markdown 和 HTML 输出格式,以及元数据提取。
提取工具
HyperbrowserExtractTool 是一个强大的工具,使用 AI 从网页中提取结构化数据。它可以根据预定义的模式提取信息。
调用
基本用法
爬取工具
抓取工具
提取工具
使用自定义选项
使用自定义选项的爬取工具
使用自定义选项的抓取工具
使用自定义模式的提取工具
异步用法
所有工具都支持异步用法:在智能体中使用
以下是如何在智能体中使用任何网页工具:配置选项
通用选项
所有工具都支持这些基本配置选项:url:要处理的 URLsession_options:浏览器会话配置use_proxy:是否使用代理solve_captchas:是否自动解决验证码accept_cookies:是否接受 Cookie
工具特定选项
爬取工具
max_pages:要爬取的最大页面数scrape_options:抓取每个页面的选项formats:输出格式列表(markdown, html)
抓取工具
scrape_options:抓取页面的选项formats:输出格式列表(markdown, html)
提取工具
schema:定义要提取的结构的 Pydantic 模型extraction_prompt:用于提取的自然语言提示
API 参考
连接这些文档 到 Claude、VSCode 等,通过 MCP 获取实时答案。

