/llms.txt：控制 AI 机器人如何查看你的网站的简单方法🤖

# Web 开发 # 编程 # 教程 # AI

随着人工智能网络爬虫的兴起，许多网站都在寻找控制其内容如何用于人工智能训练的方法。虽然 robots.txt 一直是传统爬虫的标准，但越来越多人采用 LLMs.txt 作为人工智能专用指令。

LLMs.txt 是什么？

https://llmstxt.org/

LLMs.txt 是一个拟议标准（类似于 robots.txt），允许网站所有者指定：

人工智能模型是否可以对其内容进行训练

网站的哪些部分允许/不允许用于培训

归因要求

AI 爬虫的速率限制

快速实施指南

将 LLMs.txt 文件添加到您的根目录：

# Allow training but require attribution
Allow: /blog/*
Attribution: Required
Company: YourCompany

# Disallow training on specific sections
Disallow: /private/*
Disallow: /premium/*

# Rate limiting
Crawling-Rate: 10r/m

真实世界的例子

我研究了各大科技公司如何实施 LLMs.txt。

您可以在此处查看：https://llmstxt.site/

以下是我发现的一些有趣的模式：

大多数公司允许对公共博客内容进行培训

文档通常受到限制

优质内容通常不被允许

最佳实践

从默认策略开始

明确归因

考虑速率限制

定期审查

入门

只需在您网站的根目录中创建一个 LLMs.txt 文件。

这是我的 llms.txt：https://gleam.so/llms.txt

您对 LLMs.txt 有什么看法？您打算在您的网站上实施它吗？

CLIS.CC

/llms.txt：控制 AI 机器人如何查看你的网站的简单方法🤖

LLMs.txt 是什么？

快速实施指南

真实世界的例子

最佳实践

入门