/llms.txt:控制 AI 机器人如何查看你的网站的简单方法🤖

随着人工智能网络爬虫的兴起,许多网站都在寻找控制其内容如何用于人工智能训练的方法。虽然 robots.txt 一直是传统爬虫的标准,但越来越多人采用 LLMs.txt 作为人工智能专用指令。

LLMs.txt 是什么?

https://llmstxt.org/

LLMs.txt 是一个拟议标准(类似于 robots.txt),允许网站所有者指定:

  • 人工智能模型是否可以对其内容进行训练
  • 网站的哪些部分允许/不允许用于培训
  • 归因要求
  • AI 爬虫的速率限制
  • 快速实施指南

    将 LLMs.txt 文件添加到您的根目录:

    # Allow training but require attribution
    Allow: /blog/*
    Attribution: Required
    Company: YourCompany
    
    # Disallow training on specific sections
    Disallow: /private/*
    Disallow: /premium/*
    
    # Rate limiting
    Crawling-Rate: 10r/m

    真实世界的例子

    我研究了各大科技公司如何实施 LLMs.txt。

    您可以在此处查看:https://llmstxt.site/

    以下是我发现的一些有趣的模式:

  • 大多数公司允许对公共博客内容进行培训
  • 文档通常受到限制
  • 优质内容通常不被允许
  • 最佳实践

  • 从默认策略开始
  • 明确归因
  • 考虑速率限制
  • 定期审查
  • 入门

    只需在您网站的根目录中创建一个 LLMs.txt 文件。

    这是我的 llms.txt:https://gleam.so/llms.txt

    您对 LLMs.txt 有什么看法?您打算在您的网站上实施它吗?