使用 Bright Data 的最先进的自动化网页抓取工具

**先决条件:**

  • 请阅读以下博客文章,了解 Bright Data 的 AI 用例 Bright Data 应对 AI 数据挑战
  • 根据您使用的操作系统,请确保安装 .NET 8
  • 注册或登录 Google AI Studio。这是构建微调指令集所必需的。
  • 确保在 BrightData 上注册。还请完成代理和抓取基础设施以及 Web 抓取 API 的初始设置步骤。请记下 WSS 浏览器凭据、Webscraper Api 令牌
  • WSS Browser CredentialBright Data Webscraper Token

    我建造了什么

    我已经构建了一个自动化网页抓取器,这是一个带有控制台解决方案的 .NET C# 库,用于通过自定义微调的 AI 模型构建(包括通过 Bright Data 支持的第三方提供商进行数据聚合或收集)解决自动化网页抓取的各种问题。

    Automated Webscraper Solution

    **源代码** - https://github.com/ranjancse26/AutomatedWebscraper

    Automated Web Scrapper项目主要关注以下几个方面。

  • 代理和抓取 - 在 Bright Data 的帮助下进行无头网络抓取。
  • Web Scraper API 使用 Bright Data Web Scrapper API 进行数据收集和管理相关方面。
  • 使用 Bright Data 的 Web 数据。以 Glassdoor 为例。
  • Google Gemini 2.0(gemini-2.0-flash-exp)LLM 集成用于获取用于 AI 模型微调的结构化信息。
  • **无头网络爬虫类图**

    Headless Web Scraper Class Diagram

    **Web Scraper 类图**

    Web Scraper Class Diagram

    **服务层类图**

    Service Layer Class Diagram

    演示

    **源代码** - https://github.com/ranjancse26/AutomatedWebscraper

    **请确保遵循先决条件并更新 appSettings.json**

    开始使用控制台演示。

    Automated Web Scrapper Console

    这是 Bright Data - Booking.com 提供商响应的屏幕截图,它利用了基于 Headless Web Scraping 的解决方案的代理和抓取机制。还可以轻松地为其他提供商构建或扩展该库。

    BookingCom Headless Browser Response

    Booking.com 网站抓取使用 Bright Data Web Scraping API。

    **注意** - 根据您请求的数据,您可能需要等待几秒钟到几分钟才能完成 Web Scraping API 调用。

    BookingCom Web Scraping Response

    这是使用 Bright Data Web Scraper API 的 Glassdoor 请求/响应。

    Glassdoor RequestGlassdoor ResponseGlassdoor Response

    **Glassdoor 调试信息**

    Glassdoor Debug ResponseGlassdoor Finetune InstructionSet

    这是 Glassdoor Finetune 指令集准备对 Google Gemma 模型进行微调的屏幕截图。类似的技术可用于对各种 LLM 模型进行微调。

    Glassdoor Finetune SampleWeb Data Easy ScraperWeb Data Easy Webscraping GlassdoorWeb Data Easy Webscraping Glassdoor History

    Bright Data - Web Data - Glassdoor 公司微调了指令集创建。

    Bright Data - Web Data - Glassdoor

    它解决了什么问题?

    下面我们将讨论自动化网络爬虫解决方案所解决的实际问题。

  • 使用无头浏览器或基于 Bright Data Web Scraper API 的方法,人们可以以轻松的方式实现高度可靠且有保障的自动网页抓取方法。构建高度可扩展、计划或自动化的按需或实时(而非批量离线)网页抓取方法(Bright Data 的解决方案)可用于执行网页抓取,以解决各种数据收集或聚合问题。
  • 使用 Bright Data 的 Web Data 解决方案,人们可​​以轻松执行简单的网络抓取并下载数据,以进一步构建自定义微调 AI 模型。
  • 如何使用 Bright Data

    以下部分解释了如何利用 Bright Data 通过各种技术实现自动网页抓取解决方案。

  • 代理和抓取 - 在 Bright Data 的帮助下,使用无头 Web 抓取,Booking.com 的实施已经完成。Booking.com 被视为一个示例。但是,可以利用和构建基于无头浏览器的 Web 抓取解决方案,用于任何 Bright Data 支持的提供商。
  • Web Scraper API - 使用 Bright Data Web Scrapper API 进行数据收集和管理相关方面。Glassdoor 被视为一个示例,用于演示基于 Web Scraper API 的实现,该实现通过特定 URL 获取 Glassdoor 公司信息。
  • Web 数据 - 使用 Bright Data 的 Web 数据。以 Glassdoor 为例,利用 Easy Web Scraping 技术启动和下载 Glassdoor 公司信息,然后使用下载的 JSON 信息,利用 Google 最新的 gemini-2.0-flash-exp LLM 模型构建 Google Gemma 微调指令集。Google Gemini 2.0 (gemini-2.0-flash-exp) LLM 集成用于构建用于微调 AI 模型的结构化信息。
  • 此提交内容符合以下提示

  • 从复杂、交互式的网站抓取数据
  • 构建 Web Scraper API 来解决业务问题
  • 最具创意的人工智能模型网络数据使用方式
  • DEV 挑战现已开始!

    DEV Challenges Hub

    查看所有参与方式、证明您的技能并赢取奖品。

    访问挑战中心