Skip to main content
Bright Data 提供强大的 Web Scraper API,可从 44 个热门域名(包括电商网站(Amazon、Walmart、eBay)、社交媒体(LinkedIn、Instagram、TikTok、Facebook)等)提取结构化数据,特别适用于需要可靠结构化网页数据的 AI 智能体。

概述

集成详情

可序列化JS 支持版本
BrightDataWebScraperAPIlangchain-brightdataPyPI - Version

工具特性

原生异步返回制品返回数据定价
来自网站的结构化数据(Amazon 商品、LinkedIn 个人资料等)需要 Bright Data 账户

设置

该集成位于 langchain-brightdata 包中。
pip install langchain-brightdata
您需要 Bright Data API 密钥才能使用此工具。您可以将其设置为环境变量:
import os

os.environ["BRIGHT_DATA_API_KEY"] = "your-api-key"
或在初始化工具时直接传入:
from langchain_brightdata import BrightDataWebScraperAPI

scraper_tool = BrightDataWebScraperAPI(bright_data_api_key="your-api-key")

实例化

以下展示如何实例化 BrightDataWebScraperAPI 工具。该工具使用 Bright Data 的数据集 API,可从 Amazon 商品详情、LinkedIn 个人资料等各类网站提取结构化数据。 实例化时支持以下参数:
  • bright_data_api_key(必填,str):用于身份验证的 Bright Data API 密钥。

调用

基本用法

from langchain_brightdata import BrightDataWebScraperAPI

# Initialize the tool
scraper_tool = BrightDataWebScraperAPI(
    bright_data_api_key="your-api-key"  # Optional if set in environment variables
)

# Extract Amazon product data
results = scraper_tool.invoke(
    {"url": "https://www.amazon.com/dp/B08L5TNJHG", "dataset_type": "amazon_product"}
)

print(results)

带参数的高级用法

from langchain_brightdata import BrightDataWebScraperAPI

# Initialize with default parameters
scraper_tool = BrightDataWebScraperAPI(bright_data_api_key="your-api-key")

# Extract Amazon product data with location-specific pricing
results = scraper_tool.invoke(
    {
        "url": "https://www.amazon.com/dp/B08L5TNJHG",
        "dataset_type": "amazon_product",
        "zipcode": "10001",  # Get pricing for New York City
    }
)

print(results)

# Extract LinkedIn profile data
linkedin_results = scraper_tool.invoke(
    {
        "url": "https://www.linkedin.com/in/satyanadella/",
        "dataset_type": "linkedin_person_profile",
    }
)

print(linkedin_results)

自定义选项

BrightDataWebScraperAPI 工具支持以下参数进行自定义:
参数类型描述
urlstr要提取数据的 URL
dataset_typestr要使用的数据集类型(见下方可用类型)
zipcodestr可选邮政编码,用于获取特定位置的数据
keywordstr搜索关键词(amazon_product_search 必填)
first_namestr名字(linkedin_people_search 必填)
last_namestr姓氏(linkedin_people_search 必填)
num_of_reviewsstr评论数量(facebook_company_reviews 必填)
num_of_commentsstr评论数量(youtube_comments 可用,默认值:10)
days_limitstr限制结果的天数(google_maps_reviews 可用,默认值:3)

可用数据集类型(44 种数据集)

电商(10 种数据集)

数据集类型描述所需输入
amazon_product商品详情、定价、规格url(含 /dp/)
amazon_product_reviews客户评价与评分url(含 /dp/)
amazon_product_searchAmazon 搜索结果keywordurl
walmart_productWalmart 商品数据url(含 /ip/)
walmart_sellerWalmart 卖家信息url
ebay_producteBay 商品数据url
homedepot_productsHome Depot 商品数据url
zara_productsZara 商品数据url
etsy_productsEtsy 商品数据url
bestbuy_productsBest Buy 商品数据url

LinkedIn(5 种数据集)

数据集类型描述所需输入
linkedin_person_profile职业个人资料数据url
linkedin_company_profile公司信息url
linkedin_job_listings职位列表详情url
linkedin_posts帖子内容与互动数据url
linkedin_people_search搜索人员urlfirst_namelast_name

商业智能(2 种数据集)

数据集类型描述所需输入
crunchbase_company公司融资、投资者、指标url
zoominfo_company_profileB2B 公司商业情报url

Instagram(4 种数据集)

数据集类型描述所需输入
instagram_profiles个人资料数据与统计url
instagram_posts帖子内容与互动数据url
instagram_reelsReels 内容与指标url
instagram_comments帖子评论url

Facebook(4 种数据集)

数据集类型描述所需输入
facebook_posts帖子内容与互动数据url
facebook_marketplace_listingsMarketplace 列表数据url
facebook_company_reviews公司评价urlnum_of_reviews
facebook_events活动详情url

TikTok(4 种数据集)

数据集类型描述所需输入
tiktok_profiles个人资料数据与统计url
tiktok_posts视频内容与指标url
tiktok_shop店铺商品数据url
tiktok_comments视频评论url

YouTube(3 种数据集)

数据集类型描述所需输入
youtube_profiles频道个人资料数据url
youtube_videos视频内容与指标url
youtube_comments视频评论urlnum_of_comments(默认值:10)

Google(3 种数据集)

数据集类型描述所需输入
google_maps_reviews地图商户评价urldays_limit(默认值:3)
google_shopping购物商品数据url
google_play_store应用商店数据url

其他平台(9 种数据集)

数据集类型描述所需输入
apple_app_storeiOS 应用数据url
x_postsX(Twitter)帖子数据url
reddit_postsReddit 帖子数据url
github_repository_fileGitHub 文件内容url
yahoo_finance_business金融商业数据url
reuter_news新闻文章数据url
zillow_properties_listing房产列表数据url
booking_hotel_listings酒店列表数据url

在智能体中使用

from langchain_brightdata import BrightDataWebScraperAPI
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.agents import create_agent


# Initialize the LLM
llm = ChatGoogleGenerativeAI(model="gemini-2.5-flash", google_api_key="your-api-key")

# Initialize the Bright Data Web Scraper API tool
scraper_tool = BrightDataWebScraperAPI(bright_data_api_key="your-api-key")

# Create the agent with the tool
agent = create_agent(llm, [scraper_tool])

# Provide a user query
user_input = "Scrape Amazon product data for https://www.amazon.com/dp/B0D2Q9397Y?th=1 in New York (zipcode 10001)."

# Stream the agent's step-by-step output
for step in agent.stream(
    {"messages": user_input},
    stream_mode="values",
):
    step["messages"][-1].pretty_print()

API 参考