/llms.txt:控制 AI 机器人如何查看你的网站的简单方法🤖
随着人工智能网络爬虫的兴起,许多网站都在寻找控制其内容如何用于人工智能训练的方法。虽然 robots.txt 一直是传统爬虫的标准,但越来越多人采用 LLMs.txt 作为人工智能专用指令。
LLMs.txt 是什么?
https://llmstxt.org/
LLMs.txt 是一个拟议标准(类似于 robots.txt),允许网站所有者指定:
快速实施指南
将 LLMs.txt 文件添加到您的根目录:
# Allow training but require attribution Allow: /blog/* Attribution: Required Company: YourCompany # Disallow training on specific sections Disallow: /private/* Disallow: /premium/* # Rate limiting Crawling-Rate: 10r/m
真实世界的例子
我研究了各大科技公司如何实施 LLMs.txt。
您可以在此处查看:https://llmstxt.site/
以下是我发现的一些有趣的模式:
最佳实践
入门
只需在您网站的根目录中创建一个 LLMs.txt 文件。
这是我的 llms.txt:https://gleam.so/llms.txt
您对 LLMs.txt 有什么看法?您打算在您的网站上实施它吗?