Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它让你能够大规模启动和管理浏览器会话,并为任何网页抓取需求提供易用的解决方案,例如抓取单个页面或爬取整个网站。 主要特性:有关 Hyperbrowser 的更多信息,请访问 Hyperbrowser 官网,或查看 Hyperbrowser 文档。
- 即时可扩展性 - 无需处理基础设施难题,在几秒内启动数百个浏览器会话
- 简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝配合
- 强大的 API - 易于使用的 API,用于抓取/爬取任何网站等更多操作
- 绕过反爬虫措施 - 内置隐身模式、广告拦截、自动 CAPTCHA 解决和轮换代理
安装与设置
要开始使用langchain-hyperbrowser,你可以使用 pip 安装该包:
HYPERBROWSER_API_KEY=<your-api-key>
请确保从 https://app.hyperbrowser.ai/ 获取你的 API 密钥
可用工具
Hyperbrowser 提供两大类工具,特别适用于:- 从复杂网站进行网页抓取和数据提取
- 自动化重复性网络任务
- 与需要身份验证的 Web 应用程序交互
- 跨多个网站进行研究
- 测试 Web 应用程序
浏览器代理工具
Hyperbrowser 提供多种浏览器代理工具。目前支持:- Claude Computer Use
- OpenAI CUA
- Browser Use
Browser Use 工具
一个通用浏览器自动化工具,可以通过自然语言指令处理各种网络任务。OpenAI CUA 工具
利用 OpenAI 的 Computer Use Agent 能力进行高级网络交互和信息收集。Claude Computer Use 工具
利用 Anthropic 的 Claude 进行复杂的网络浏览和信息处理任务。网页抓取工具
以下是 Hyperbrowser 提供的网页抓取工具的简要说明。你可以在此处查看更多详情抓取工具
抓取工具允许你以 Markdown、HTML 或链接格式提取单个网页的内容。爬取工具
爬取工具使你能够从给定 URL 开始遍历整个网站,并可配置页面限制。提取工具
提取工具使用 AI 根据预定义的模式从网页中提取结构化数据,非常适合数据提取任务。文档加载器
langchain-hyperbrowser 中的 HyperbrowserLoader 类可以轻松加载任何单个页面或多个页面的内容,以及爬取整个网站。
内容可以以 Markdown 或 HTML 格式加载。
高级用法
你可以指定加载器要执行的操作。默认操作是scrape。对于 scrape,你可以提供单个 URL 或 URL 列表进行抓取。对于 crawl,你只能提供单个 URL。crawl 操作将爬取提供的页面及其子页面,并为每个页面返回一个文档。
params 参数中提供。有关支持的参数的更多信息,请访问 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-wait 或 https://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait。
其他资源
将这些文档连接 到 Claude、VSCode 等,通过 MCP 获取实时答案。

