BrightDataTools 使 Agent 能够使用 BrightData 的 API 进行网页抓取、搜索引擎查询、截屏以及结构化数据提取。
BrightDataTools 提供全面的网页抓取功能,包括 Markdown 转换、截屏、搜索引擎结果以及来自 LinkedIn、Amazon、Instagram 等众多平台的结构化数据源。
以下示例需要 requests
库。
您还需要一个 BrightData API 密钥。设置 BRIGHT_DATA_API_KEY
环境变量:
可选地,您可以配置区域设置:
从 LinkedIn、Amazon 等平台提取结构化数据:
这些参数将传递给 BrightDataTools
构造函数。
参数 | 类型 | 默认值 | 描述 |
---|---|---|---|
api_key | Optional[str] | None | BrightData API 密钥。如果未提供,则使用 BRIGHT_DATA_API_KEY 环境变量。 |
serp_zone | str | "serp_api" | 用于搜索引擎请求的区域。可以通过 BRIGHT_DATA_SERP_ZONE 环境变量进行覆盖。 |
web_unlocker_zone | str | "web_unlocker1" | 用于网页抓取请求的区域。可以通过 BRIGHT_DATA_WEB_UNLOCKER_ZONE 环境变量进行覆盖。 |
scrape_as_markdown | bool | True | 启用 scrape_as_markdown 工具。 |
get_screenshot | bool | False | 启用 get_screenshot 工具。 |
search_engine | bool | True | 启用 search_engine 工具。 |
web_data_feed | bool | True | 启用 web_data_feed 工具。 |
verbose | bool | False | 启用详细日志记录。 |
timeout | int | 600 | 数据源请求的超时(秒)。 |
函数 | 描述 |
---|---|
scrape_as_markdown | 抓取网页并以 Markdown 格式返回内容。参数:url (str) - 要抓取的 URL。 |
get_screenshot | 捕获网页的屏幕截图并将其添加为图像工件。参数:url (str) - 要截屏的 URL,output_path (str, optional) - 输出路径(默认为 “screenshot.png”)。 |
search_engine | 使用 Google、Bing 或 Yandex 进行搜索并以 Markdown 格式返回结果。参数:query (str), engine (str, default: “google”), num_results (int, default: 10), language (Optional[str]), country_code (Optional[str])。 |
web_data_feed | 从 LinkedIn、Amazon、Instagram 等各种来源检索结构化数据。参数:source_type (str), url (str), num_of_reviews (Optional[int])。 |
web_data_feed
函数支持以下数据源类型:
amazon_product
- Amazon 产品详情amazon_product_reviews
- Amazon 产品评论amazon_product_search
- Amazon 产品搜索结果walmart_product
- Walmart 产品详情walmart_seller
- Walmart 卖家信息ebay_product
- eBay 产品详情homedepot_products
- Home Depot 产品zara_products
- Zara 产品etsy_products
- Etsy 产品bestbuy_products
- Best Buy 产品linkedin_person_profile
- LinkedIn 个人资料linkedin_company_profile
- LinkedIn 公司资料linkedin_job_listings
- LinkedIn 工作列表linkedin_posts
- LinkedIn 帖子linkedin_people_search
- LinkedIn 人员搜索结果instagram_profiles
- Instagram 个人资料instagram_posts
- Instagram 帖子instagram_reels
- Instagram Reelsinstagram_comments
- Instagram 评论facebook_posts
- Facebook 帖子facebook_marketplace_listings
- Facebook Marketplace 列表facebook_company_reviews
- Facebook 公司评论facebook_events
- Facebook 活动tiktok_profiles
- TikTok 个人资料tiktok_posts
- TikTok 帖子tiktok_shop
- TikTok Shoptiktok_comments
- TikTok 评论x_posts
- X (Twitter) 帖子google_maps_reviews
- Google Maps 评论google_shopping
- Google Shopping 结果google_play_store
- Google Play 商店应用apple_app_store
- Apple App Store 应用youtube_profiles
- YouTube 个人资料youtube_videos
- YouTube 视频youtube_comments
- YouTube 评论reddit_posts
- Reddit 帖子zillow_properties_listing
- Zillow 房源列表booking_hotel_listings
- Booking.com 酒店列表crunchbase_company
- Crunchbase 公司数据zoominfo_company_profile
- ZoomInfo 公司资料reuter_news
- Reuters 新闻github_repository_file
- GitHub 存储库文件yahoo_finance_business
- Yahoo Finance 商业数据