Hyperbrowser 集成

Hyperbrowser 是一个用于运行和扩展无头浏览器的平台。它让你能够大规模启动和管理浏览器会话，并为任何网页抓取需求提供易用的解决方案，例如抓取单个页面或爬取整个网站。主要特性：

即时可扩展性 - 无需处理基础设施难题，在几秒内启动数百个浏览器会话

简单集成 - 与 Puppeteer 和 Playwright 等流行工具无缝配合

强大的 API - 易于使用的 API，用于抓取/爬取任何网站等更多操作

绕过反爬虫措施 - 内置隐身模式、广告拦截、自动 CAPTCHA 解决和轮换代理

有关 Hyperbrowser 的更多信息，请访问 Hyperbrowser 官网，或查看 Hyperbrowser 文档。

安装与设置

要开始使用 langchain-hyperbrowser，你可以使用 pip 安装该包：

pip install langchain-hyperbrowser

你应该通过设置以下环境变量来配置凭证： HYPERBROWSER_API_KEY=<your-api-key> 请确保从 https://app.hyperbrowser.ai/ 获取你的 API 密钥

可用工具

Hyperbrowser 提供两大类工具，特别适用于：

从复杂网站进行网页抓取和数据提取
自动化重复性网络任务
与需要身份验证的 Web 应用程序交互
跨多个网站进行研究
测试 Web 应用程序

浏览器代理工具

Hyperbrowser 提供多种浏览器代理工具。目前支持：

Claude Computer Use
OpenAI CUA
Browser Use

你可以在此处查看更多详情

Browser Use 工具

一个通用浏览器自动化工具，可以通过自然语言指令处理各种网络任务。

from langchain_hyperbrowser import HyperbrowserBrowserUseTool

tool = HyperbrowserBrowserUseTool()
result = tool.run({
    "task": "Go to npmjs.com, find the React package, and tell me when it was last updated"
})
print(result)

OpenAI CUA 工具

利用 OpenAI 的 Computer Use Agent 能力进行高级网络交互和信息收集。

from langchain_hyperbrowser import HyperbrowserOpenAICUATool

tool = HyperbrowserOpenAICUATool()
result = tool.run({
    "task": "Go to Hacker News and summarize the top 5 posts right now"
})
print(result)

Claude Computer Use 工具

利用 Anthropic 的 Claude 进行复杂的网络浏览和信息处理任务。

from langchain_hyperbrowser import HyperbrowserClaudeComputerUseTool

tool = HyperbrowserClaudeComputerUseTool()
result = tool.run({
    "task": "Go to GitHub's trending repositories page, and list the top 3 posts there right now"
})
print(result)

网页抓取工具

以下是 Hyperbrowser 提供的网页抓取工具的简要说明。你可以在此处查看更多详情

抓取工具

抓取工具允许你以 Markdown、HTML 或链接格式提取单个网页的内容。

from langchain_hyperbrowser import HyperbrowserScrapeTool

tool = HyperbrowserScrapeTool()
result = tool.run({
    "url": "https://example.com",
    "scrape_options": {"formats": ["markdown"]}
})
print(result)

爬取工具

爬取工具使你能够从给定 URL 开始遍历整个网站，并可配置页面限制。

from langchain_hyperbrowser import HyperbrowserCrawlTool

tool = HyperbrowserCrawlTool()
result = tool.run({
    "url": "https://example.com",
    "max_pages": 2,
    "scrape_options": {"formats": ["markdown"]}
})
print(result)

提取工具

提取工具使用 AI 根据预定义的模式从网页中提取结构化数据，非常适合数据提取任务。

from langchain_hyperbrowser import HyperbrowserExtractTool
from pydantic import BaseModel

class SimpleExtractionModel(BaseModel):
    title: str

tool = HyperbrowserExtractTool()
result = tool.run({
    "url": "https://example.com",
    "schema": SimpleExtractionModel
})
print(result)

文档加载器

langchain-hyperbrowser 中的 HyperbrowserLoader 类可以轻松加载任何单个页面或多个页面的内容，以及爬取整个网站。内容可以以 Markdown 或 HTML 格式加载。

from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(urls="https://example.com")
docs = loader.load()

print(docs[0])

高级用法

你可以指定加载器要执行的操作。默认操作是 scrape。对于 scrape，你可以提供单个 URL 或 URL 列表进行抓取。对于 crawl，你只能提供单个 URL。crawl 操作将爬取提供的页面及其子页面，并为每个页面返回一个文档。

loader = HyperbrowserLoader(
  urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

加载器的可选参数也可以在 params 参数中提供。有关支持的参数的更多信息，请访问 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-wait 或 https://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait。

loader = HyperbrowserLoader(
  urls="https://example.com",
  api_key="YOUR_API_KEY",
  operation="scrape",
  params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}}
)

其他资源

在 GitHub 上编辑此页面或提交问题。

将这些文档连接到 Claude、VSCode 等，通过 MCP 获取实时答案。

Popular Providers

Integrations by component

安装与设置

可用工具

浏览器代理工具

Browser Use 工具

OpenAI CUA 工具

Claude Computer Use 工具

网页抓取工具

抓取工具

爬取工具

提取工具

文档加载器

高级用法

其他资源

Popular Providers

Integrations by component

​安装与设置

​可用工具

​浏览器代理工具

​Browser Use 工具

​OpenAI CUA 工具

​Claude Computer Use 工具

​网页抓取工具

​抓取工具

​爬取工具

​提取工具

​文档加载器

​高级用法

​其他资源

安装与设置

可用工具

浏览器代理工具

Browser Use 工具

OpenAI CUA 工具

Claude Computer Use 工具

网页抓取工具

抓取工具

爬取工具

提取工具

文档加载器

高级用法

其他资源