Bright Data Web Scraper API 集成

Bright Data 提供强大的 Web Scraper API，可从 44 个热门域名（包括电商网站（Amazon、Walmart、eBay）、社交媒体（LinkedIn、Instagram、TikTok、Facebook）等）提取结构化数据，特别适用于需要可靠结构化网页数据的 AI 智能体。

概述

集成详情

类	包	可序列化	JS 支持	版本
BrightDataWebScraperAPI	langchain-brightdata	✅	❌

工具特性

原生异步	返回制品	返回数据	定价
❌	❌	来自网站的结构化数据（Amazon 商品、LinkedIn 个人资料等）	需要 Bright Data 账户

设置

该集成位于 langchain-brightdata 包中。

pip install langchain-brightdata

您需要 Bright Data API 密钥才能使用此工具。您可以将其设置为环境变量：

import os

os.environ["BRIGHT_DATA_API_KEY"] = "your-api-key"

或在初始化工具时直接传入：

from langchain_brightdata import BrightDataWebScraperAPI

scraper_tool = BrightDataWebScraperAPI(bright_data_api_key="your-api-key")

实例化

以下展示如何实例化 BrightDataWebScraperAPI 工具。该工具使用 Bright Data 的数据集 API，可从 Amazon 商品详情、LinkedIn 个人资料等各类网站提取结构化数据。实例化时支持以下参数：

bright_data_api_key（必填，str）：用于身份验证的 Bright Data API 密钥。

调用

基本用法

from langchain_brightdata import BrightDataWebScraperAPI

# Initialize the tool
scraper_tool = BrightDataWebScraperAPI(
    bright_data_api_key="your-api-key"  # Optional if set in environment variables
)

# Extract Amazon product data
results = scraper_tool.invoke(
    {"url": "https://www.amazon.com/dp/B08L5TNJHG", "dataset_type": "amazon_product"}
)

print(results)

带参数的高级用法

from langchain_brightdata import BrightDataWebScraperAPI

# Initialize with default parameters
scraper_tool = BrightDataWebScraperAPI(bright_data_api_key="your-api-key")

# Extract Amazon product data with location-specific pricing
results = scraper_tool.invoke(
    {
        "url": "https://www.amazon.com/dp/B08L5TNJHG",
        "dataset_type": "amazon_product",
        "zipcode": "10001",  # Get pricing for New York City
    }
)

print(results)

# Extract LinkedIn profile data
linkedin_results = scraper_tool.invoke(
    {
        "url": "https://www.linkedin.com/in/satyanadella/",
        "dataset_type": "linkedin_person_profile",
    }
)

print(linkedin_results)

自定义选项

BrightDataWebScraperAPI 工具支持以下参数进行自定义：

参数	类型	描述
`url`	str	要提取数据的 URL
`dataset_type`	str	要使用的数据集类型（见下方可用类型）
`zipcode`	str	可选邮政编码，用于获取特定位置的数据
`keyword`	str	搜索关键词（`amazon_product_search` 必填）
`first_name`	str	名字（`linkedin_people_search` 必填）
`last_name`	str	姓氏（`linkedin_people_search` 必填）
`num_of_reviews`	str	评论数量（`facebook_company_reviews` 必填）
`num_of_comments`	str	评论数量（`youtube_comments` 可用，默认值：10）
`days_limit`	str	限制结果的天数（`google_maps_reviews` 可用，默认值：3）

可用数据集类型（44 种数据集）

电商（10 种数据集）

数据集类型	描述	所需输入
`amazon_product`	商品详情、定价、规格	`url`（含 /dp/）
`amazon_product_reviews`	客户评价与评分	`url`（含 /dp/）
`amazon_product_search`	Amazon 搜索结果	`keyword`、`url`
`walmart_product`	Walmart 商品数据	`url`（含 /ip/）
`walmart_seller`	Walmart 卖家信息	`url`
`ebay_product`	eBay 商品数据	`url`
`homedepot_products`	Home Depot 商品数据	`url`
`zara_products`	Zara 商品数据	`url`
`etsy_products`	Etsy 商品数据	`url`
`bestbuy_products`	Best Buy 商品数据	`url`

LinkedIn（5 种数据集）

数据集类型	描述	所需输入
`linkedin_person_profile`	职业个人资料数据	`url`
`linkedin_company_profile`	公司信息	`url`
`linkedin_job_listings`	职位列表详情	`url`
`linkedin_posts`	帖子内容与互动数据	`url`
`linkedin_people_search`	搜索人员	`url`、`first_name`、`last_name`

商业智能（2 种数据集）

数据集类型	描述	所需输入
`crunchbase_company`	公司融资、投资者、指标	`url`
`zoominfo_company_profile`	B2B 公司商业情报	`url`

Instagram（4 种数据集）

数据集类型	描述	所需输入
`instagram_profiles`	个人资料数据与统计	`url`
`instagram_posts`	帖子内容与互动数据	`url`
`instagram_reels`	Reels 内容与指标	`url`
`instagram_comments`	帖子评论	`url`

Facebook（4 种数据集）

数据集类型	描述	所需输入
`facebook_posts`	帖子内容与互动数据	`url`
`facebook_marketplace_listings`	Marketplace 列表数据	`url`
`facebook_company_reviews`	公司评价	`url`、`num_of_reviews`
`facebook_events`	活动详情	`url`

TikTok（4 种数据集）

数据集类型	描述	所需输入
`tiktok_profiles`	个人资料数据与统计	`url`
`tiktok_posts`	视频内容与指标	`url`
`tiktok_shop`	店铺商品数据	`url`
`tiktok_comments`	视频评论	`url`

YouTube（3 种数据集）

数据集类型	描述	所需输入
`youtube_profiles`	频道个人资料数据	`url`
`youtube_videos`	视频内容与指标	`url`
`youtube_comments`	视频评论	`url`、`num_of_comments`（默认值：10）

Google（3 种数据集）

数据集类型	描述	所需输入
`google_maps_reviews`	地图商户评价	`url`、`days_limit`（默认值：3）
`google_shopping`	购物商品数据	`url`
`google_play_store`	应用商店数据	`url`

其他平台（9 种数据集）

数据集类型	描述	所需输入
`apple_app_store`	iOS 应用数据	`url`
`x_posts`	X（Twitter）帖子数据	`url`
`reddit_posts`	Reddit 帖子数据	`url`
`github_repository_file`	GitHub 文件内容	`url`
`yahoo_finance_business`	金融商业数据	`url`
`reuter_news`	新闻文章数据	`url`
`zillow_properties_listing`	房产列表数据	`url`
`booking_hotel_listings`	酒店列表数据	`url`

在智能体中使用

from langchain_brightdata import BrightDataWebScraperAPI
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.agents import create_agent


# Initialize the LLM
llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash", google_api_key="your-api-key")

# Initialize the Bright Data Web Scraper API tool
scraper_tool = BrightDataWebScraperAPI(bright_data_api_key="your-api-key")

# Create the agent with the tool
agent = create_agent(llm, [scraper_tool])

# Provide a user query
user_input = "Scrape Amazon product data for https://www.amazon.com/dp/B0D2Q9397Y?th=1 in New York (zipcode 10001)."

# Stream the agent's step-by-step output
for step in agent.stream(
    {"messages": user_input},
    stream_mode="values",
):
    step["messages"][-1].pretty_print()

API 参考

Bright Data API 文档

Edit this page on GitHub or file an issue.

Connect these docs to Claude, VSCode, and more via MCP for real-time answers.

Popular Providers

Integrations by component

概述

集成详情

工具特性

设置

实例化

调用

基本用法

带参数的高级用法

自定义选项

可用数据集类型（44 种数据集）

电商（10 种数据集）

LinkedIn（5 种数据集）

商业智能（2 种数据集）

Instagram（4 种数据集）

Facebook（4 种数据集）

TikTok（4 种数据集）

YouTube（3 种数据集）

Google（3 种数据集）

其他平台（9 种数据集）

在智能体中使用

API 参考

Popular Providers

Integrations by component

​概述

​集成详情

​工具特性

​设置

​实例化

​调用

​基本用法

​带参数的高级用法

​自定义选项

​可用数据集类型（44 种数据集）

​电商（10 种数据集）

​LinkedIn（5 种数据集）

​商业智能（2 种数据集）

​Instagram（4 种数据集）

​Facebook（4 种数据集）

​TikTok（4 种数据集）

​YouTube（3 种数据集）

​Google（3 种数据集）

​其他平台（9 种数据集）

​在智能体中使用

​API 参考

概述

集成详情

工具特性

设置

实例化

调用

基本用法

带参数的高级用法

自定义选项

可用数据集类型（44 种数据集）

电商（10 种数据集）

LinkedIn（5 种数据集）

商业智能（2 种数据集）

Instagram（4 种数据集）

Facebook（4 种数据集）

TikTok（4 种数据集）

YouTube（3 种数据集）

Google（3 种数据集）

其他平台（9 种数据集）

在智能体中使用

API 参考