**先决条件:**
请阅读以下博客文章,了解 Bright Data 的 AI 用例 Bright Data 应对 AI 数据挑战根据您使用的操作系统,请确保安装 .NET 8注册或登录 Google AI Studio。这是构建微调指令集所必需的。确保在 BrightData 上注册。还请完成代理和抓取基础设施以及 Web 抓取 API 的初始设置步骤。请记下 WSS 浏览器凭据、Webscraper Api 令牌

我建造了什么
我已经构建了一个自动化网页抓取器,这是一个带有控制台解决方案的 .NET C# 库,用于通过自定义微调的 AI 模型构建(包括通过 Bright Data 支持的第三方提供商进行数据聚合或收集)解决自动化网页抓取的各种问题。

**源代码** - https://github.com/ranjancse26/AutomatedWebscraper
Automated Web Scrapper项目主要关注以下几个方面。
代理和抓取 - 在 Bright Data 的帮助下进行无头网络抓取。Web Scraper API 使用 Bright Data Web Scrapper API 进行数据收集和管理相关方面。使用 Bright Data 的 Web 数据。以 Glassdoor 为例。Google Gemini 2.0(gemini-2.0-flash-exp)LLM 集成用于获取用于 AI 模型微调的结构化信息。**无头网络爬虫类图**

**Web Scraper 类图**

**服务层类图**

演示
**源代码** - https://github.com/ranjancse26/AutomatedWebscraper
**请确保遵循先决条件并更新 appSettings.json**
开始使用控制台演示。

这是 Bright Data - Booking.com 提供商响应的屏幕截图,它利用了基于 Headless Web Scraping 的解决方案的代理和抓取机制。还可以轻松地为其他提供商构建或扩展该库。

Booking.com 网站抓取使用 Bright Data Web Scraping API。
**注意** - 根据您请求的数据,您可能需要等待几秒钟到几分钟才能完成 Web Scraping API 调用。

这是使用 Bright Data Web Scraper API 的 Glassdoor 请求/响应。



**Glassdoor 调试信息**


这是 Glassdoor Finetune 指令集准备对 Google Gemma 模型进行微调的屏幕截图。类似的技术可用于对各种 LLM 模型进行微调。




Bright Data - Web Data - Glassdoor 公司微调了指令集创建。

它解决了什么问题?
下面我们将讨论自动化网络爬虫解决方案所解决的实际问题。
使用无头浏览器或基于 Bright Data Web Scraper API 的方法,人们可以以轻松的方式实现高度可靠且有保障的自动网页抓取方法。构建高度可扩展、计划或自动化的按需或实时(而非批量离线)网页抓取方法(Bright Data 的解决方案)可用于执行网页抓取,以解决各种数据收集或聚合问题。使用 Bright Data 的 Web Data 解决方案,人们可以轻松执行简单的网络抓取并下载数据,以进一步构建自定义微调 AI 模型。如何使用 Bright Data
以下部分解释了如何利用 Bright Data 通过各种技术实现自动网页抓取解决方案。
代理和抓取 - 在 Bright Data 的帮助下,使用无头 Web 抓取,Booking.com 的实施已经完成。Booking.com 被视为一个示例。但是,可以利用和构建基于无头浏览器的 Web 抓取解决方案,用于任何 Bright Data 支持的提供商。Web Scraper API - 使用 Bright Data Web Scrapper API 进行数据收集和管理相关方面。Glassdoor 被视为一个示例,用于演示基于 Web Scraper API 的实现,该实现通过特定 URL 获取 Glassdoor 公司信息。Web 数据 - 使用 Bright Data 的 Web 数据。以 Glassdoor 为例,利用 Easy Web Scraping 技术启动和下载 Glassdoor 公司信息,然后使用下载的 JSON 信息,利用 Google 最新的 gemini-2.0-flash-exp LLM 模型构建 Google Gemma 微调指令集。Google Gemini 2.0 (gemini-2.0-flash-exp) LLM 集成用于构建用于微调 AI 模型的结构化信息。此提交内容符合以下提示
从复杂、交互式的网站抓取数据构建 Web Scraper API 来解决业务问题最具创意的人工智能模型网络数据使用方式DEV 挑战现已开始!

查看所有参与方式、证明您的技能并赢取奖品。
访问挑战中心