先决条件
以下示例需要requests 库。
BRIGHT_DATA_API_KEY 环境变量:
示例
基本网页抓取
从 LinkedIn、Amazon 等平台提取结构化数据:Toolkit 参数
这些参数将传递给BrightDataTools 构造函数。
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
api_key | Optional[str] | None | BrightData API 密钥。如果未提供,则使用 BRIGHT_DATA_API_KEY环境变量。 |
serp_zone | str | "serp_api" | 用于搜索引擎请求的区域。可以通过 BRIGHT_DATA_SERP_ZONE 环境变量进行覆盖。 |
web_unlocker_zone | str | "web_unlocker1" | 用于网页抓取请求的区域。可以通过 BRIGHT_DATA_WEB_UNLOCKER_ZONE 环境变量进行覆盖。 |
scrape_as_markdown | bool | True | 启用 scrape_as_markdown 工具。 |
get_screenshot | bool | False | 启用 get_screenshot 工具。 |
search_engine | bool | True | 启用 search_engine 工具。 |
web_data_feed | bool | True | 启用 web_data_feed 工具。 |
verbose | bool | False | 启用详细日志记录。 |
timeout | int | 600 | 数据源请求的超时(秒)。 |
Toolkit 函数
| 函数 | 描述 |
|---|---|
scrape_as_markdown | 抓取网页并以 Markdown 格式返回内容。参数:url (str) - 要抓取的 URL。 |
get_screenshot | 捕获网页的屏幕截图并将其添加为图像工件。参数:url (str) - 要截屏的 URL,output_path (str, optional) - 输出路径(默认为 “screenshot.png”)。 |
search_engine | 使用 Google、Bing 或 Yandex 进行搜索并以 Markdown 格式返回结果。参数:query (str), engine (str, default: “google”), num_results (int, default: 10), language (Optional[str]), country_code (Optional[str])。 |
web_data_feed | 从 LinkedIn、Amazon、Instagram 等各种来源检索结构化数据。参数:source_type (str), url (str), num_of_reviews (Optional[int])。 |
支持的数据源
web_data_feed 函数支持以下数据源类型:
电子商务
amazon_product- Amazon 产品详情amazon_product_reviews- Amazon 产品评论amazon_product_search- Amazon 产品搜索结果walmart_product- Walmart 产品详情walmart_seller- Walmart 卖家信息ebay_product- eBay 产品详情homedepot_products- Home Depot 产品zara_products- Zara 产品etsy_products- Etsy 产品bestbuy_products- Best Buy 产品
专业网络
linkedin_person_profile- LinkedIn 个人资料linkedin_company_profile- LinkedIn 公司资料linkedin_job_listings- LinkedIn 工作列表linkedin_posts- LinkedIn 帖子linkedin_people_search- LinkedIn 人员搜索结果
社交媒体
instagram_profiles- Instagram 个人资料instagram_posts- Instagram 帖子instagram_reels- Instagram Reelsinstagram_comments- Instagram 评论facebook_posts- Facebook 帖子facebook_marketplace_listings- Facebook Marketplace 列表facebook_company_reviews- Facebook 公司评论facebook_events- Facebook 活动tiktok_profiles- TikTok 个人资料tiktok_posts- TikTok 帖子tiktok_shop- TikTok Shoptiktok_comments- TikTok 评论x_posts- X (Twitter) 帖子
其他平台
google_maps_reviews- Google Maps 评论google_shopping- Google Shopping 结果google_play_store- Google Play 商店应用apple_app_store- Apple App Store 应用youtube_profiles- YouTube 个人资料youtube_videos- YouTube 视频youtube_comments- YouTube 评论reddit_posts- Reddit 帖子zillow_properties_listing- Zillow 房源列表booking_hotel_listings- Booking.com 酒店列表crunchbase_company- Crunchbase 公司数据zoominfo_company_profile- ZoomInfo 公司资料reuter_news- Reuters 新闻github_repository_file- GitHub 存储库文件yahoo_finance_business- Yahoo Finance 商业数据
开发者资源
- 查看 工具源码
- 查看 Cookbook 示例