2026年的llms.txt：炒作、数据与应该做什么代替

llms.txt 的争论已分裂为两个阵营，双方都在贩卖确定性。一个阵营称其为"新的 robots.txt"和下一轮 SEO（搜索引擎优化）的圈地运动：添加一个文件，赢得 AI 流量。另一方引用 Google 的话，宣称整个想法在落地之前就已死亡。两种解读都跳过了数据——而截至 2026 年中期，数据已经足够充分，可以解决大部分争议。

以下是提前给出的诚实版本。服务器日志显示，AI 爬虫几乎不请求该文件。Google 的搜索指南并未使用它。然而，Google 自家的 Chrome 团队现在已对其进行审计，它所服务的智能体浏览层是真实存在的，而部署一个文件的成本大约只需二十分钟。我们发布了自己的文件——/llms.txt 和 /llms-full.txt——并在本指南后半部分逐行进行注释，让你看到一个实际运行的文件是什么样子，以及我们为何费心去做。

接下来的内容：规范说明、2026 年 5 月无人调和的 Google 矛盾、5.15 亿次机器人事件揭示的采用现状、完整的爬虫权限层级、阻止与开放决策背后的"爬取-点击"经济学，以及按业务类型划分的阻止或开放决策矩阵。

llms.txt 是什么——以及它不是什么

llms.txt 是一个放置在域名根目录下的纯 Markdown 文件，它为语言模型提供一份经过筛选的站点索引：你是谁、哪些页面是规范的、权威答案在哪里。Answer.AI 和 fast.ai 联合创始人 Jeremy Howard 于 2024 年 9 月 3 日提出了这一规范。其前提是实用而非远见式的：为人类构建的 HTML 充满噪声——导航、脚本、Cookie 横幅——而模型的上下文窗口是有限的，因此与其让机器费力挖掘，不如直接给它一张干净的地图。

该规范有两个层级。/llms.txt 是简短索引：摘要加精选链接。/llms-full.txt 是最大化变体：将完整内容内联到一个机器可读文档中，使智能体可以通过单次请求加载你网站的全部内容。

同样重要的是这个文件不是什么。它不是 robots.txt——它既不授权也不禁止任何内容，其背后也不存在任何执行机制。它不是排名信号；没有任何搜索引擎表示会读取该文件以用于排名。它也不是访问控制：忽略它的爬虫不会失去任何东西。robots.txt 说的是"这是你可以抓取的内容"；llms.txt 说的是"这是值得阅读的内容"。这是两种不同的工作，混淆它们会产生大多数错误的观点。

2026 年 5 月的 Google 矛盾

在 2026 年 5 月的十天内，Google 做出了两个指向相反方向的举动——这就是为什么两个阵营都能面不改色地引用 Google。

第一步：2026 年 5 月 5 日，Google 在其站点质量工具 Lighthouse 中，以一个全新的"智能体浏览"类别为名，添加了 llms.txt 审计功能。如果抓取 /llms.txt 返回服务器错误，该审计会对你的站点发出标记，文档明确说明了其理由："没有这个文件，智能体可能需要花更多时间爬取站点，以了解其高层次结构和主要内容"（ppc.land）。

第二步：2026 年 5 月 15 日，Google 发布了关于如何为搜索中的生成式 AI 功能优化网站的官方指南——涵盖 AI 概览和 AI 模式。llms.txt 在其中缺席。该指南重申了 Google 搜索代表自规范出现以来一直强调的内容：标准的技术 SEO 才是 AI 搜索功能的关键，该文件对此并非必要。

调和之处在于，这根本不是矛盾——存在的是两个层级。Google 搜索（包括 AI 概览）基于其现有 HTML 索引对内容进行排名和引用；llms.txt 在其中今天不起任何作用，Google 对此一直保持一致。而"智能体浏览"——即 AI 智能体代表用户访问你的站点以完成任务——是一种不同的内容消费模式，有着不同的需求，这才是 Chrome 团队开始审计的那个层级。任何告诉你"Google 要求使用它"或"Google 已将其淘汰"的人，都是在引用一个层级而忽略另一个。

服务器日志说明：采用现状

采用情况呈现出两面：发布者越来越多地部署该文件，而爬虫大多忽视它。

对 5.15 亿次机器人事件的综合分析发现，对 /llms.txt 的请求占 AI 爬虫流量的比例微乎其微——相对于页面抓取量来说不过是四舍五入的误差（aeo.press）。GPTBot、ClaudeBot 和 PerplexityBot 主要请求的是 HTML 页面，一如搜索爬虫历来的做法。为训练语料库和检索索引提供数据的管道是为网络规模下的 HTML 而设计的；并行的 Markdown 文件是这些管道尚未采用的优化手段。

在发布者一侧，财富 500 强企业中有 7.4%——即 500 家中的 37 家——在 2026 年 3 月 31 日前已部署了 llms.txt（ppc.land）。开发者文档网站的采用速度快得多，因为编程智能体是目前被证明会实际读取这些文件的唯一消费者。

因此，日志数据的诚实总结是：在 2026 年，部署 llms.txt 并不会从可测量的角度改变主要 AI 爬虫读取你站点的方式。任何将其作为 AI 流量解锁手段来销售的人，都是在超前于证据进行营销。

2026 年 AI 爬虫权限层级

llms.txt 的讨论是孤立的，但它只是一个五层级堆栈中的一个工具，而这个堆栈控制着——或试图控制——AI 系统如何处理你的内容。

层级	控制内容	执行方	合规现实	我们的判断
robots.txt 指令（GPTBot、ClaudeBot、PerplexityBot、Google-Extended）	是否允许已声明的爬虫抓取你的页面；Google-Extended 管理 Gemini 训练，而非搜索	无人——这是一项自愿协议	主要实验室遵守其已声明的爬虫；存在争议——Cloudflare 于 2025 年指控 Perplexity 使用未声明的爬虫来规避封锁	你真正的开关——有意识地配置它
内容信号政策（contentsignals.org）	声明已抓取内容的使用方式：搜索、AI 输入、AI 训练	技术上无人执行；该政策将这些信号框架为权利保留声明	太新，无法衡量；通过 Cloudflare 管理的 robots.txt 传播	零成本；对律师的意义多于对机器人的意义
Cloudflare 默认封锁（Nieman Lab）	自 2025 年 7 月 1 日起，在网络边缘默认封锁新域名的已知 AI 爬虫	Cloudflare——被封锁的请求永远到不了你的服务器	在大量网站上实际执行	唯一有效力的层级；有意识地切换，而非继承默认值
按次付费抓取	向 AI 爬虫收取每次请求费用，而非直接封锁	Cloudflare 的市场，处于测试阶段	早期阶段；取决于各实验室是否同意付费	与大型发布商相关，不适用于 B2B 网站
llms.txt / llms-full.txt	无——这是一份给模型和智能体的建议性阅读清单	无人	服务器日志中抓取率可忽略不计；Lighthouse 现在对其存在进行审计	面向智能体网络的廉价保险；今天对 SEO 零效果

注意这个规律。人们争论的层级——llms.txt、内容信号——是建议性的。一夜之间改变爬虫行为的层级是 Cloudflare 的边缘网络，而这恰恰是大多数站点所有者从未有意识地配置过的那一层。

爬取-点击经济学：向 AI "提供内容"会带来什么回报

默认封锁的本能建立在一个经济事实之上，因此有必要直白地说明。Cloudflare Radar 2026 年第一季度的数据显示，OpenAI GPTBot 的爬取-引荐比——即每带来一次人类点击所需抓取的页面数——约为 1,276:1，Anthropic ClaudeBot 约为 23,951:1（Cloudflare）。传统搜索爬取以低几个数量级的比率回馈站点。AI 系统以工业规模消费内容，却几乎不带来直接流量。

如果你的业务靠页面浏览量变现，这种不对等近乎是生死存亡的威胁，而发布商的反抗——以及 Cloudflare 的按次付费抓取实验——从逻辑上顺理成章地由此产生。

但这个比率衡量的是点击，而点击并非唯一的回报。那次从未带来访客的爬取，仍然决定了模型是否知道你的存在、是否准确描述你、以及是否在买家询问候选名单时提到你。对于 B2B 公司来说，AI 的回答往往就是那个接触点：潜在客户请 ChatGPT 比较供应商，得到一个根据爬虫能读取的内容综合而成的答案，而你的分析系统从未记录这次交互。我们在 AEO vs GEO vs SEO 中深入分析了这一转变——目标从赢得点击转移为成为被检索到、被准确引用的答案。

封锁还是开放？按业务类型划分的决策矩阵

没有放之四海而皆准的答案，因为爬取-点击经济学对不同的业务类型影响各异，取决于你的内容是为了什么而存在。

业务类型	营收逻辑	AI 爬虫	llms.txt	理由
发布商/媒体	页面浏览量和订阅是产品本身	封锁或通过按次付费抓取进行谈判	跳过	在 1,276:1 甚至更差的比率下，开放访问就是在补贴别人的产品
B2B 品牌/服务	网站是销售资产；被了解比被访问更重要	开放	部署它	你希望在买家询问 AI 时能被检索到
电商	产品数据驱动发现；智能体越来越多地辅助购买决策	开放；关注基础设施成本	部署它，并附上产品和政策 URL	在智能体进行比较的关键时刻缺席就是损失收入
内容授权	内容本身是被定价的资产	封锁，然后谈判	跳过	稀缺性是谈判筹码

对于大多数 B2B 公司——我们的客户，也包括我们自身——答案是开放。你的营销网站存在的目的，就是让市场知道你做什么。一个 AI 系统读取它并向潜在客户准确复述它，相当于免费完成了网站的使命。为保护那些唯一目的就是被了解的内容而封锁 GPTBot，是战略上的倒行逆施。随着采购越来越多地向企业对智能体（B2A，Business-to-Agent）互动转变——即软件完成过去由人类完成的任务——可检索性的复利效应会不断积累：值得保护的资产是准确性，而非访问权。在 AI 平台上维护这种准确性，是 AI 可见性工作的核心。

封闭网络的后果：被封锁的站点让 Wikipedia 成为你的代理

现在来看几乎没人为之定价的二阶效应。Cloudflare 对新域名默认封锁 AI 爬虫。发布商封锁或计量访问。按次付费抓取为过去免费的东西定价。在 AI 爬虫眼中，开放网络正在收缩。

模型仍然需要可信赖的信息来源，因此检索越来越集中于那些设计上保持开放的高权威语料库：Wikipedia、Wikidata、公共注册表、学术存储库。Wikipedia 的自由许可证允许再利用，其内容经过结构化和引用，且不存在任何爬取墙。每一个关闭的站点，都使那些保持开放的来源在 AI 系统知道什么、说什么方面拥有更大的权重。

这对品牌的影响是直接的。如果你自己的站点对爬虫关闭——无论是主动选择还是因为 CDN 的默认设置——那么你的 Wikipedia 文章、你的 Wikidata 实体以及其他开放来源，就会成为 AI 读取关于你的信息的实际记录。这就是 llms.txt 争论所遗漏的战略关联，也是为什么我们将百科全书式的存在视为基础设施而非虚荣：它是无论权限层级如何演变都能保持可检索性的那部分记录。相关机制在 Wikipedia AEO 和我们的 Wikidata 及知识图谱服务中有所涵盖；更广泛的战术图景在 2026 年 Wikipedia SEO 战术中有详细介绍。

我们自己的 llms.txt，附注释

我们发布了两个层级——wikibusines.net/llms.txt 和 wikibusines.net/llms-full.txt——从站点规范数据自动生成，你可以直接在线阅读。以下是简短文件中的真实行，附有每个选择背后的理由：

# WikiBusines — LLM-readable summary

WikiBusines is a trust-infrastructure and AI-visibility company.

Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt

- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1,900, credited toward
  project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim

- We do not guarantee Wikipedia publication. We run a risk-managed,
  source-first process and recommend alternative routes when notability
  is insufficient.

第一句话用一行定义了实体。如果模型只读取你文件的二十个 Token，这些 Token 应该说清楚你是什么。像写词典定义一样写，而不是写广告语。

指向完整档案的链接实现了规范的双层设计。索引保持简洁可浏览；需要全部信息的智能体跟随一个链接，即可在单次抓取中获得每一项服务、价格和常见问题解答。

事实性内容包含数字和日期。"成立于 2010 年"和"93%"是模型可以检索并精确重复的声明。形容词做不到这一点。

服务条目将规范 URL 与价格配对。当智能体被问及知名度审计费用是多少时，答案和目标链接就在同一行。

"我们不声称"部分是大多数公司永远不会写的内容。模型会复述其来源；如果你的文件过度声称，AI 的回答就会过度声称，潜在客户的第一次通话就会以纠正错误开始。陈述自身服务的局限性是准确性保险——与我们在每个页面上应用的诚实差异逻辑相同。

总耗时：约二十分钟，加上事实发生变化时的重新生成。2026 年现实的回报是智能体可读性和干净的 Lighthouse 审计，而非排名。我们将其视为廉价保险，并据此定价。

常见问题

llms.txt 对 SEO（搜索引擎优化）有帮助吗？

没有证据表明它有。Google 2026 年 5 月的搜索指南没有使用该文件，也没有任何搜索引擎宣布出于排名或 AI 概览的目的而读取它。如果目标是获得 AI 搜索引用，该做的工作仍然是传统方式：可抓取的 HTML、结构化数据，以及关于你的权威第三方来源。

ChatGPT 真的会读取我的 llms.txt 吗？

根据现有证据，很少。跨越数亿次机器人事件的分析显示，GPTBot 及其同类主要抓取 HTML，而在很大程度上忽略 /llms.txt。该文件近期的消费者是智能体浏览器和编程工具——以及 Lighthouse，其审计表明 Google Chrome 团队认为这是未来的发展方向。

小公司值得费心做吗？

大约花二十分钟，今天无法测量到任何变化，所以将其视为可选的低成本保险。跳过是合理的；认真做也很便宜。如果你部署了，保持其准确性并在事实变化时重新生成——一个误报你价格的过时文件，比没有文件更糟糕。

我应该先封锁 AI 爬虫，等决策成熟后再说吗？

首先检查你是否已经封锁了。如果你的域名在 2025 年 7 月 1 日之后加入 Cloudflare，AI 爬虫可能已经被默认封锁了，而你公司里没有任何人做出过这个决定。无论你的立场如何，请让它成为一个主动决策，而非继承来的默认设置。

llms.txt 是 AI 可读性中成本最低、影响最小的层级。真正有影响的层级是：AI 系统信任的来源——Wikipedia、Wikidata、知识平台——是否准确描述了你，以及你的公司的机器可读记录是否根本存在。这个堆栈正是我们构建的：请参阅 LLM Hub 了解完整架构，或从打开我们的 llms.txt 并与你自己域名的文件并排比较开始。如果你的返回 404，你现在已经准确知道这究竟意味着什么代价，以及什么不是代价。

llms.txt 是什么——以及它不是什么

2026 年 5 月的 Google 矛盾

在 2026 年 5 月的十天内，Google 做出了两个指向相反方向的举动——这就是为什么两个阵营都能面不改色地引用 Google。

服务器日志说明：采用现状

采用情况呈现出两面：发布者越来越多地部署该文件，而爬虫大多忽视它。

2026 年 AI 爬虫权限层级

llms.txt 的讨论是孤立的，但它只是一个五层级堆栈中的一个工具，而这个堆栈控制着——或试图控制——AI 系统如何处理你的内容。

层级	控制内容	执行方	合规现实	我们的判断
robots.txt 指令（GPTBot、ClaudeBot、PerplexityBot、Google-Extended）	是否允许已声明的爬虫抓取你的页面；Google-Extended 管理 Gemini 训练，而非搜索	无人——这是一项自愿协议	主要实验室遵守其已声明的爬虫；存在争议——Cloudflare 于 2025 年指控 Perplexity 使用未声明的爬虫来规避封锁	你真正的开关——有意识地配置它
内容信号政策（contentsignals.org）	声明已抓取内容的使用方式：搜索、AI 输入、AI 训练	技术上无人执行；该政策将这些信号框架为权利保留声明	太新，无法衡量；通过 Cloudflare 管理的 robots.txt 传播	零成本；对律师的意义多于对机器人的意义
Cloudflare 默认封锁（Nieman Lab）	自 2025 年 7 月 1 日起，在网络边缘默认封锁新域名的已知 AI 爬虫	Cloudflare——被封锁的请求永远到不了你的服务器	在大量网站上实际执行	唯一有效力的层级；有意识地切换，而非继承默认值
按次付费抓取	向 AI 爬虫收取每次请求费用，而非直接封锁	Cloudflare 的市场，处于测试阶段	早期阶段；取决于各实验室是否同意付费	与大型发布商相关，不适用于 B2B 网站
llms.txt / llms-full.txt	无——这是一份给模型和智能体的建议性阅读清单	无人	服务器日志中抓取率可忽略不计；Lighthouse 现在对其存在进行审计	面向智能体网络的廉价保险；今天对 SEO 零效果

爬取-点击经济学：向 AI "提供内容"会带来什么回报

封锁还是开放？按业务类型划分的决策矩阵

没有放之四海而皆准的答案，因为爬取-点击经济学对不同的业务类型影响各异，取决于你的内容是为了什么而存在。

业务类型	营收逻辑	AI 爬虫	llms.txt	理由
发布商/媒体	页面浏览量和订阅是产品本身	封锁或通过按次付费抓取进行谈判	跳过	在 1,276:1 甚至更差的比率下，开放访问就是在补贴别人的产品
B2B 品牌/服务	网站是销售资产；被了解比被访问更重要	开放	部署它	你希望在买家询问 AI 时能被检索到
电商	产品数据驱动发现；智能体越来越多地辅助购买决策	开放；关注基础设施成本	部署它，并附上产品和政策 URL	在智能体进行比较的关键时刻缺席就是损失收入
内容授权	内容本身是被定价的资产	封锁，然后谈判	跳过	稀缺性是谈判筹码

封闭网络的后果：被封锁的站点让 Wikipedia 成为你的代理

我们自己的 llms.txt，附注释

# WikiBusines — LLM-readable summary

WikiBusines is a trust-infrastructure and AI-visibility company.

Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt

- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1,900, credited toward
  project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim

- We do not guarantee Wikipedia publication. We run a risk-managed,
  source-first process and recommend alternative routes when notability
  is insufficient.

第一句话用一行定义了实体。如果模型只读取你文件的二十个 Token，这些 Token 应该说清楚你是什么。像写词典定义一样写，而不是写广告语。

事实性内容包含数字和日期。"成立于 2010 年"和"93%"是模型可以检索并精确重复的声明。形容词做不到这一点。

服务条目将规范 URL 与价格配对。当智能体被问及知名度审计费用是多少时，答案和目标链接就在同一行。

2026年的llms.txt：数据说明了什么——以及应该做什么代替

llms.txt 是什么——以及它不是什么

2026 年 5 月的 Google 矛盾

服务器日志说明：采用现状

2026 年 AI 爬虫权限层级

爬取-点击经济学：向 AI "提供内容"会带来什么回报

封锁还是开放？按业务类型划分的决策矩阵

封闭网络的后果：被封锁的站点让 Wikipedia 成为你的代理

我们自己的 llms.txt，附注释

常见问题

llms.txt 对 SEO（搜索引擎优化）有帮助吗？

ChatGPT 真的会读取我的 llms.txt 吗？

小公司值得费心做吗？

我应该先封锁 AI 爬虫，等决策成熟后再说吗？

继续阅读

Wikipedia页面如何改变你的谷歌SERP：点击率、知识面板与结果版面

你能在谷歌超越Wikipedia页面吗？（以及何时应该尝试）

Wikipedia与SERM：使用百科全书页面稳定你的搜索声誉

有关于维基百科的问题想让我们撰文解答？

2026年的llms.txt：数据说明了什么——以及应该做什么代替

llms.txt 是什么——以及它不是什么

2026 年 5 月的 Google 矛盾

服务器日志说明：采用现状

2026 年 AI 爬虫权限层级

爬取-点击经济学：向 AI "提供内容"会带来什么回报

封锁还是开放？按业务类型划分的决策矩阵

封闭网络的后果：被封锁的站点让 Wikipedia 成为你的代理

我们自己的 llms.txt，附注释

常见问题

llms.txt 对 SEO（搜索引擎优化）有帮助吗？

ChatGPT 真的会读取我的 llms.txt 吗？

小公司值得费心做吗？

我应该先封锁 AI 爬虫，等决策成熟后再说吗？

继续阅读

Wikipedia页面如何改变你的谷歌SERP：点击率、知识面板与结果版面

你能在谷歌超越Wikipedia页面吗？（以及何时应该尝试）

Wikipedia与SERM：使用百科全书页面稳定你的搜索声誉

有关于维基百科的问题想让我们撰文解答？