使用 Bright Data 的最先进的自动化网页抓取工具

# Web 开发 # AI # Dev Challenge

**先决条件：**

请阅读以下博客文章，了解 Bright Data 的 AI 用例 Bright Data 应对 AI 数据挑战

根据您使用的操作系统，请确保安装 .NET 8

注册或登录 Google AI Studio。这是构建微调指令集所必需的。

确保在 BrightData 上注册。还请完成代理和抓取基础设施以及 Web 抓取 API 的初始设置步骤。请记下 WSS 浏览器凭据、Webscraper Api 令牌

我建造了什么

我已经构建了一个自动化网页抓取器，这是一个带有控制台解决方案的 .NET C# 库，用于通过自定义微调的 AI 模型构建（包括通过 Bright Data 支持的第三方提供商进行数据聚合或收集）解决自动化网页抓取的各种问题。

**源代码** - https://github.com/ranjancse26/AutomatedWebscraper

Automated Web Scrapper项目主要关注以下几个方面。

代理和抓取 - 在 Bright Data 的帮助下进行无头网络抓取。

Web Scraper API 使用 Bright Data Web Scrapper API 进行数据收集和管理相关方面。

使用 Bright Data 的 Web 数据。以 Glassdoor 为例。

Google Gemini 2.0（gemini-2.0-flash-exp）LLM 集成用于获取用于 AI 模型微调的结构化信息。

**无头网络爬虫类图**

**Web Scraper 类图**

**服务层类图**

演示

**源代码** - https://github.com/ranjancse26/AutomatedWebscraper

**请确保遵循先决条件并更新 appSettings.json**

开始使用控制台演示。

这是 Bright Data - Booking.com 提供商响应的屏幕截图，它利用了基于 Headless Web Scraping 的解决方案的代理和抓取机制。还可以轻松地为其他提供商构建或扩展该库。

Booking.com 网站抓取使用 Bright Data Web Scraping API。

**注意** - 根据您请求的数据，您可能需要等待几秒钟到几分钟才能完成 Web Scraping API 调用。

这是使用 Bright Data Web Scraper API 的 Glassdoor 请求/响应。

**Glassdoor 调试信息**

这是 Glassdoor Finetune 指令集准备对 Google Gemma 模型进行微调的屏幕截图。类似的技术可用于对各种 LLM 模型进行微调。

Web Data Easy Webscraping Glassdoor History

Bright Data - Web Data - Glassdoor 公司微调了指令集创建。

它解决了什么问题？

下面我们将讨论自动化网络爬虫解决方案所解决的实际问题。

使用无头浏览器或基于 Bright Data Web Scraper API 的方法，人们可以以轻松的方式实现高度可靠且有保障的自动网页抓取方法。构建高度可扩展、计划或自动化的按需或实时（而非批量离线）网页抓取方法（Bright Data 的解决方案）可用于执行网页抓取，以解决各种数据收集或聚合问题。

使用 Bright Data 的 Web Data 解决方案，人们可以轻松执行简单的网络抓取并下载数据，以进一步构建自定义微调 AI 模型。

如何使用 Bright Data

以下部分解释了如何利用 Bright Data 通过各种技术实现自动网页抓取解决方案。

代理和抓取 - 在 Bright Data 的帮助下，使用无头 Web 抓取，Booking.com 的实施已经完成。Booking.com 被视为一个示例。但是，可以利用和构建基于无头浏览器的 Web 抓取解决方案，用于任何 Bright Data 支持的提供商。

Web Scraper API - 使用 Bright Data Web Scrapper API 进行数据收集和管理相关方面。Glassdoor 被视为一个示例，用于演示基于 Web Scraper API 的实现，该实现通过特定 URL 获取 Glassdoor 公司信息。

Web 数据 - 使用 Bright Data 的 Web 数据。以 Glassdoor 为例，利用 Easy Web Scraping 技术启动和下载 Glassdoor 公司信息，然后使用下载的 JSON 信息，利用 Google 最新的 gemini-2.0-flash-exp LLM 模型构建 Google Gemma 微调指令集。Google Gemini 2.0 (gemini-2.0-flash-exp) LLM 集成用于构建用于微调 AI 模型的结构化信息。

此提交内容符合以下提示

从复杂、交互式的网站抓取数据

构建 Web Scraper API 来解决业务问题

最具创意的人工智能模型网络数据使用方式

DEV 挑战现已开始！

查看所有参与方式、证明您的技能并赢取奖品。

访问挑战中心

CLIS.CC

使用 Bright Data 的最先进的自动化网页抓取工具

我建造了什么

演示

它解决了什么问题？

如何使用 Bright Data

DEV 挑战现已开始！