先决条件
以下示例需要requests
库。
BRIGHT_DATA_API_KEY
环境变量:
示例
基本网页抓取
从 LinkedIn、Amazon 等平台提取结构化数据:Toolkit 参数
这些参数将传递给BrightDataTools
构造函数。
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
api_key | Optional[str] | None | BrightData API 密钥。如果未提供,则使用 BRIGHT_DATA_API_KEY 环境变量。 |
serp_zone | str | "serp_api" | 用于搜索引擎请求的区域。可以通过 BRIGHT_DATA_SERP_ZONE 环境变量进行覆盖。 |
web_unlocker_zone | str | "web_unlocker1" | 用于网页抓取请求的区域。可以通过 BRIGHT_DATA_WEB_UNLOCKER_ZONE 环境变量进行覆盖。 |
scrape_as_markdown | bool | True | 启用 scrape_as_markdown 工具。 |
get_screenshot | bool | False | 启用 get_screenshot 工具。 |
search_engine | bool | True | 启用 search_engine 工具。 |
web_data_feed | bool | True | 启用 web_data_feed 工具。 |
verbose | bool | False | 启用详细日志记录。 |
timeout | int | 600 | 数据源请求的超时(秒)。 |
Toolkit 函数
函数 | 描述 |
---|---|
scrape_as_markdown | 抓取网页并以 Markdown 格式返回内容。参数:url (str) - 要抓取的 URL。 |
get_screenshot | 捕获网页的屏幕截图并将其添加为图像工件。参数:url (str) - 要截屏的 URL,output_path (str, optional) - 输出路径(默认为 “screenshot.png”)。 |
search_engine | 使用 Google、Bing 或 Yandex 进行搜索并以 Markdown 格式返回结果。参数:query (str), engine (str, default: “google”), num_results (int, default: 10), language (Optional[str]), country_code (Optional[str])。 |
web_data_feed | 从 LinkedIn、Amazon、Instagram 等各种来源检索结构化数据。参数:source_type (str), url (str), num_of_reviews (Optional[int])。 |
支持的数据源
web_data_feed
函数支持以下数据源类型:
电子商务
amazon_product
- Amazon 产品详情amazon_product_reviews
- Amazon 产品评论amazon_product_search
- Amazon 产品搜索结果walmart_product
- Walmart 产品详情walmart_seller
- Walmart 卖家信息ebay_product
- eBay 产品详情homedepot_products
- Home Depot 产品zara_products
- Zara 产品etsy_products
- Etsy 产品bestbuy_products
- Best Buy 产品
专业网络
linkedin_person_profile
- LinkedIn 个人资料linkedin_company_profile
- LinkedIn 公司资料linkedin_job_listings
- LinkedIn 工作列表linkedin_posts
- LinkedIn 帖子linkedin_people_search
- LinkedIn 人员搜索结果
社交媒体
instagram_profiles
- Instagram 个人资料instagram_posts
- Instagram 帖子instagram_reels
- Instagram Reelsinstagram_comments
- Instagram 评论facebook_posts
- Facebook 帖子facebook_marketplace_listings
- Facebook Marketplace 列表facebook_company_reviews
- Facebook 公司评论facebook_events
- Facebook 活动tiktok_profiles
- TikTok 个人资料tiktok_posts
- TikTok 帖子tiktok_shop
- TikTok Shoptiktok_comments
- TikTok 评论x_posts
- X (Twitter) 帖子
其他平台
google_maps_reviews
- Google Maps 评论google_shopping
- Google Shopping 结果google_play_store
- Google Play 商店应用apple_app_store
- Apple App Store 应用youtube_profiles
- YouTube 个人资料youtube_videos
- YouTube 视频youtube_comments
- YouTube 评论reddit_posts
- Reddit 帖子zillow_properties_listing
- Zillow 房源列表booking_hotel_listings
- Booking.com 酒店列表crunchbase_company
- Crunchbase 公司数据zoominfo_company_profile
- ZoomInfo 公司资料reuter_news
- Reuters 新闻github_repository_file
- GitHub 存储库文件yahoo_finance_business
- Yahoo Finance 商业数据
开发者资源
- 查看 工具源码
- 查看 Cookbook 示例