Skip to main content
Amazon Bedrock AgentCore 浏览器 使智能体能够通过托管的 Chrome 浏览器与网页进行交互。智能体可以在安全、受管的环境中浏览网站、提取内容、填写表单、点击元素和截取屏幕截图。

概述

集成详情

可序列化JS 支持版本
BrowserToolkitlangchain-awsPyPI - Version

工具特性

返回工件原生异步支持浏览器交互定价
按使用量付费 (AWS)

可用工具

该工具包提供多个用于浏览器自动化的工具:
工具描述
navigate_browser导航到 URL
click_element使用 CSS 选择器点击元素
type_text在输入字段中键入文本
extract_text从页面提取所有文本内容
extract_hyperlinks从页面提取所有超链接
get_elements获取匹配 CSS 选择器的元素
current_webpage获取当前页面 URL 和标题
navigate_back返回上一页
take_screenshot对页面进行屏幕截图
scroll_page按方向滚动页面
wait_for_element等待元素出现

设置

该集成位于 langchain-aws 包中。它还需要 playwrightbeautifulsoup4 用于浏览器自动化和 HTML 解析。
pip install -U langchain-aws bedrock-agentcore playwright beautifulsoup4
playwright install chromium

凭证

您需要配置具有 Bedrock AgentCore 浏览器权限的 AWS 凭证。有关所需的 IAM 权限,请参阅 Amazon Bedrock AgentCore 文档 设置 LangSmith 以获得一流的可观测性也很有帮助(但不是必需的):
import os

os.environ["LANGSMITH_API_KEY"] = "your-api-key"
os.environ["LANGSMITH_TRACING"] = "true"

实例化

该工具包使用工厂函数创建:
from langchain_aws.tools import create_browser_toolkit

# 创建工具包并获取工具
toolkit, browser_tools = create_browser_toolkit(region="us-west-2")

调用

直接使用工具

获取特定工具并调用它们:
# 按名称获取工具
tools_by_name = toolkit.get_tools_by_name()

# 导航到 URL(需要包含 thread_id 的配置)
config = {"configurable": {"thread_id": "session-123"}}

result = tools_by_name["navigate_browser"].invoke(
    {"url": "https://example.com"},
    config=config
)
print(result)

# 从页面提取文本
text = tools_by_name["extract_text"].invoke({}, config=config)
print(text)

在智能体中使用

import asyncio
from langchain.agents import create_react_agent
from langchain.chat_models import init_chat_model
from langchain_aws.tools import create_browser_toolkit

async def main():
    # 创建工具包
    toolkit, browser_tools = create_browser_toolkit(region="us-west-2")

    # 初始化聊天模型
    llm = init_chat_model(
        "us.anthropic.claude-sonnet-4-20250514-v1:0",
        model_provider="bedrock_converse",
    )

    # 使用浏览器工具创建智能体
    agent = create_react_agent(
        model=llm,
        tools=browser_tools,
    )

    # 创建包含 thread_id 的配置以实现会话隔离
    config = {"configurable": {"thread_id": "research-session"}}

    # 运行智能体
    result = await agent.ainvoke(
        {"messages": [{
            "role": "user",
            "content": "Navigate to https://example.com and tell me the main heading"
        }]},
        config=config
    )
    print(result["messages"][-1].content)

    # 完成后清理
    await toolkit.cleanup()

asyncio.run(main())

基于线程的会话隔离

该工具包为每个 thread_id 维护独立的浏览器会话。这使得并发使用不会相互干扰:
# 每个线程获得自己的浏览器会话
config_user1 = {"configurable": {"thread_id": "user-1"}}
config_user2 = {"configurable": {"thread_id": "user-2"}}

# 用户 1 导航到站点 A
tools_by_name["navigate_browser"].invoke(
    {"url": "https://site-a.com"},
    config=config_user1
)

# 用户 2 导航到站点 B(不同的浏览器会话)
tools_by_name["navigate_browser"].invoke(
    {"url": "https://site-b.com"},
    config=config_user2
)

浏览器操作

导航

config = {"configurable": {"thread_id": "session-123"}}

# 导航到 URL
tools_by_name["navigate_browser"].invoke({"url": "https://example.com"}, config=config)

# 返回
tools_by_name["navigate_back"].invoke({}, config=config)

# 获取当前页面信息
current = tools_by_name["current_webpage"].invoke({}, config=config)
print(current)  # URL 和标题

与元素交互

# 点击元素
tools_by_name["click_element"].invoke({"selector": "#submit-button"}, config=config)

# 在输入字段中键入
tools_by_name["type_text"].invoke({
    "selector": "input[name='search']",
    "text": "search query"
}, config=config)

# 等待元素出现
tools_by_name["wait_for_element"].invoke({
    "selector": ".results",
    "timeout": 10000,  # 10 秒
    "state": "visible"
}, config=config)

提取内容

# 提取所有文本
text = tools_by_name["extract_text"].invoke({}, config=config)

# 提取所有超链接
links = tools_by_name["extract_hyperlinks"].invoke({}, config=config)

# 获取特定元素
elements = tools_by_name["get_elements"].invoke(
    {"selector": "article h2"},
    config=config
)

屏幕截图和滚动

# 对可见视口进行屏幕截图(返回 base64 图像)
screenshot = tools_by_name["take_screenshot"].invoke(
    {"capture_type": "viewport"},
    config=config
)

# 对整个可滚动页面进行屏幕截图
full_screenshot = tools_by_name["take_screenshot"].invoke(
    {"capture_type": "full_page"},
    config=config
)

# 滚动页面
tools_by_name["scroll_page"].invoke({
    "direction": "down",
    "amount": 500  # 像素
}, config=config)

会话清理

完成后始终清理浏览器会话以释放资源:
# 清理所有浏览器会话
await toolkit.cleanup()
注意: 虽然 create_browser_toolkit() 是同步的,但 cleanup() 方法是异步的,必须使用 await。

并发保护

该工具包包含内置的并发保护。每个浏览器会话都绑定到特定的 thread_id,如果在会话已被使用时尝试访问同一会话,将引发 RuntimeError。对于并发操作,请使用不同的 thread_id 值。
# 正确:为并发操作使用不同的线程 ID
config_a = {"configurable": {"thread_id": "task-a"}}
config_b = {"configurable": {"thread_id": "task-b"}}

# 这些可以并发运行而不会冲突
await asyncio.gather(
    agent.ainvoke({"messages": [...]}, config=config_a),
    agent.ainvoke({"messages": [...]}, config=config_b),
)

API 参考

有关所有功能和配置的详细文档,请参阅: