llms.txt 的争论已分裂为两个阵营,双方都在贩卖确定性。一个阵营称其为"新的 robots.txt"和下一轮 SEO(搜索引擎优化)的圈地运动:添加一个文件,赢得 AI 流量。另一方引用 Google 的话,宣称整个想法在落地之前就已死亡。两种解读都跳过了数据——而截至 2026 年中期,数据已经足够充分,可以解决大部分争议。
以下是提前给出的诚实版本。服务器日志显示,AI 爬虫几乎不请求该文件。Google 的搜索指南并未使用它。然而,Google 自家的 Chrome 团队现在已对其进行审计,它所服务的智能体浏览层是真实存在的,而部署一个文件的成本大约只需二十分钟。我们发布了自己的文件——/llms.txt 和 /llms-full.txt——并在本指南后半部分逐行进行注释,让你看到一个实际运行的文件是什么样子,以及我们为何费心去做。
接下来的内容:规范说明、2026 年 5 月无人调和的 Google 矛盾、5.15 亿次机器人事件揭示的采用现状、完整的爬虫权限层级、阻止与开放决策背后的"爬取-点击"经济学,以及按业务类型划分的阻止或开放决策矩阵。
llms.txt 是什么——以及它不是什么
llms.txt 是一个放置在域名根目录下的纯 Markdown 文件,它为语言模型提供一份经过筛选的站点索引:你是谁、哪些页面是规范的、权威答案在哪里。Answer.AI 和 fast.ai 联合创始人 Jeremy Howard 于 2024 年 9 月 3 日提出了这一规范。其前提是实用而非远见式的:为人类构建的 HTML 充满噪声——导航、脚本、Cookie 横幅——而模型的上下文窗口是有限的,因此与其让机器费力挖掘,不如直接给它一张干净的地图。
该规范有两个层级。/llms.txt 是简短索引:摘要加精选链接。/llms-full.txt 是最大化变体:将完整内容内联到一个机器可读文档中,使智能体可以通过单次请求加载你网站的全部内容。
同样重要的是这个文件不是什么。它不是 robots.txt——它既不授权也不禁止任何内容,其背后也不存在任何执行机制。它不是排名信号;没有任何搜索引擎表示会读取该文件以用于排名。它也不是访问控制:忽略它的爬虫不会失去任何东西。robots.txt 说的是"这是你可以抓取的内容";llms.txt 说的是"这是值得阅读的内容"。这是两种不同的工作,混淆它们会产生大多数错误的观点。
2026 年 5 月的 Google 矛盾
在 2026 年 5 月的十天内,Google 做出了两个指向相反方向的举动——这就是为什么两个阵营都能面不改色地引用 Google。
第一步:2026 年 5 月 5 日,Google 在其站点质量工具 Lighthouse 中,以一个全新的"智能体浏览"类别为名,添加了 llms.txt 审计功能。如果抓取 /llms.txt 返回服务器错误,该审计会对你的站点发出标记,文档明确说明了其理由:"没有这个文件,智能体可能需要花更多时间爬取站点,以了解其高层次结构和主要内容"(ppc.land)。
第二步:2026 年 5 月 15 日,Google 发布了关于如何为搜索中的生成式 AI 功能优化网站的官方指南——涵盖 AI 概览和 AI 模式。llms.txt 在其中缺席。该指南重申了 Google 搜索代表自规范出现以来一直强调的内容:标准的技术 SEO 才是 AI 搜索功能的关键,该文件对此并非必要。
调和之处在于,这根本不是矛盾——存在的是两个层级。Google 搜索(包括 AI 概览)基于其现有 HTML 索引对内容进行排名和引用;llms.txt 在其中今天不起任何作用,Google 对此一直保持一致。而"智能体浏览"——即 AI 智能体代表用户访问你的站点以完成任务——是一种不同的内容消费模式,有着不同的需求,这才是 Chrome 团队开始审计的那个层级。任何告诉你"Google 要求使用它"或"Google 已将其淘汰"的人,都是在引用一个层级而忽略另一个。
服务器日志说明:采用现状
采用情况呈现出两面:发布者越来越多地部署该文件,而爬虫大多忽视它。
对 5.15 亿次机器人事件的综合分析发现,对 /llms.txt 的请求占 AI 爬虫流量的比例微乎其微——相对于页面抓取量来说不过是四舍五入的误差(aeo.press)。GPTBot、ClaudeBot 和 PerplexityBot 主要请求的是 HTML 页面,一如搜索爬虫历来的做法。为训练语料库和检索索引提供数据的管道是为网络规模下的 HTML 而设计的;并行的 Markdown 文件是这些管道尚未采用的优化手段。
在发布者一侧,财富 500 强企业中有 7.4%——即 500 家中的 37 家——在 2026 年 3 月 31 日前已部署了 llms.txt(ppc.land)。开发者文档网站的采用速度快得多,因为编程智能体是目前被证明会实际读取这些文件的唯一消费者。
因此,日志数据的诚实总结是:在 2026 年,部署 llms.txt 并不会从可测量的角度改变主要 AI 爬虫读取你站点的方式。任何将其作为 AI 流量解锁手段来销售的人,都是在超前于证据进行营销。
2026 年 AI 爬虫权限层级
llms.txt 的讨论是孤立的,但它只是一个五层级堆栈中的一个工具,而这个堆栈控制着——或试图控制——AI 系统如何处理你的内容。
| 层级 | 控制内容 | 执行方 | 合规现实 | 我们的判断 |
|---|---|---|---|---|
| robots.txt 指令(GPTBot、ClaudeBot、PerplexityBot、Google-Extended) | 是否允许已声明的爬虫抓取你的页面;Google-Extended 管理 Gemini 训练,而非搜索 | 无人——这是一项自愿协议 | 主要实验室遵守其已声明的爬虫;存在争议——Cloudflare 于 2025 年指控 Perplexity 使用未声明的爬虫来规避封锁 | 你真正的开关——有意识地配置它 |
| 内容信号政策(contentsignals.org) | 声明已抓取内容的使用方式:搜索、AI 输入、AI 训练 | 技术上无人执行;该政策将这些信号框架为权利保留声明 | 太新,无法衡量;通过 Cloudflare 管理的 robots.txt 传播 | 零成本;对律师的意义多于对机器人的意义 |
| Cloudflare 默认封锁(Nieman Lab) | 自 2025 年 7 月 1 日起,在网络边缘默认封锁新域名的已知 AI 爬虫 | Cloudflare——被封锁的请求永远到不了你的服务器 | 在大量网站上实际执行 | 唯一有效力的层级;有意识地切换,而非继承默认值 |
| 按次付费抓取 | 向 AI 爬虫收取每次请求费用,而非直接封锁 | Cloudflare 的市场,处于测试阶段 | 早期阶段;取决于各实验室是否同意付费 | 与大型发布商相关,不适用于 B2B 网站 |
| llms.txt / llms-full.txt | 无——这是一份给模型和智能体的建议性阅读清单 | 无人 | 服务器日志中抓取率可忽略不计;Lighthouse 现在对其存在进行审计 | 面向智能体网络的廉价保险;今天对 SEO 零效果 |
注意这个规律。人们争论的层级——llms.txt、内容信号——是建议性的。一夜之间改变爬虫行为的层级是 Cloudflare 的边缘网络,而这恰恰是大多数站点所有者从未有意识地配置过的那一层。
爬取-点击经济学:向 AI "提供内容"会带来什么回报
默认封锁的本能建立在一个经济事实之上,因此有必要直白地说明。Cloudflare Radar 2026 年第一季度的数据显示,OpenAI GPTBot 的爬取-引荐比——即每带来一次人类点击所需抓取的页面数——约为 1,276:1,Anthropic ClaudeBot 约为 23,951:1(Cloudflare)。传统搜索爬取以低几个数量级的比率回馈站点。AI 系统以工业规模消费内容,却几乎不带来直接流量。
如果你的业务靠页面浏览量变现,这种不对等近乎是生死存亡的威胁,而发布商的反抗——以及 Cloudflare 的按次付费抓取实验——从逻辑上顺理成章地由此产生。
但这个比率衡量的是点击,而点击并非唯一的回报。那次从未带来访客的爬取,仍然决定了模型是否知道你的存在、是否准确描述你、以及是否在买家询问候选名单时提到你。对于 B2B 公司来说,AI 的回答往往就是那个接触点:潜在客户请 ChatGPT 比较供应商,得到一个根据爬虫能读取的内容综合而成的答案,而你的分析系统从未记录这次交互。我们在 AEO vs GEO vs SEO 中深入分析了这一转变——目标从赢得点击转移为成为被检索到、被准确引用的答案。
封锁还是开放?按业务类型划分的决策矩阵
没有放之四海而皆准的答案,因为爬取-点击经济学对不同的业务类型影响各异,取决于你的内容是为了什么而存在。
| 业务类型 | 营收逻辑 | AI 爬虫 | llms.txt | 理由 |
|---|---|---|---|---|
| 发布商/媒体 | 页面浏览量和订阅是产品本身 | 封锁或通过按次付费抓取进行谈判 | 跳过 | 在 1,276:1 甚至更差的比率下,开放访问就是在补贴别人的产品 |
| B2B 品牌/服务 | 网站是销售资产;被了解比被访问更重要 | 开放 | 部署它 | 你希望在买家询问 AI 时能被检索到 |
| 电商 | 产品数据驱动发现;智能体越来越多地辅助购买决策 | 开放;关注基础设施成本 | 部署它,并附上产品和政策 URL | 在智能体进行比较的关键时刻缺席就是损失收入 |
| 内容授权 | 内容本身是被定价的资产 | 封锁,然后谈判 | 跳过 | 稀缺性是谈判筹码 |
对于大多数 B2B 公司——我们的客户,也包括我们自身——答案是开放。你的营销网站存在的目的,就是让市场知道你做什么。一个 AI 系统读取它并向潜在客户准确复述它,相当于免费完成了网站的使命。为保护那些唯一目的就是被了解的内容而封锁 GPTBot,是战略上的倒行逆施。随着采购越来越多地向企业对智能体(B2A,Business-to-Agent)互动转变——即软件完成过去由人类完成的任务——可检索性的复利效应会不断积累:值得保护的资产是准确性,而非访问权。在 AI 平台上维护这种准确性,是 AI 可见性工作 的核心。
封闭网络的后果:被封锁的站点让 Wikipedia 成为你的代理
现在来看几乎没人为之定价的二阶效应。Cloudflare 对新域名默认封锁 AI 爬虫。发布商封锁或计量访问。按次付费抓取为过去免费的东西定价。在 AI 爬虫眼中,开放网络正在收缩。
模型仍然需要可信赖的信息来源,因此检索越来越集中于那些设计上保持开放的高权威语料库:Wikipedia、Wikidata、公共注册表、学术存储库。Wikipedia 的自由许可证允许再利用,其内容经过结构化和引用,且不存在任何爬取墙。每一个关闭的站点,都使那些保持开放的来源在 AI 系统知道什么、说什么方面拥有更大的权重。
这对品牌的影响是直接的。如果你自己的站点对爬虫关闭——无论是主动选择还是因为 CDN 的默认设置——那么你的 Wikipedia 文章、你的 Wikidata 实体以及其他开放来源,就会成为 AI 读取关于你的信息的实际记录。这就是 llms.txt 争论所遗漏的战略关联,也是为什么我们将百科全书式的存在视为基础设施而非虚荣:它是无论权限层级如何演变都能保持可检索性的那部分记录。相关机制在 Wikipedia AEO 和我们的 Wikidata 及知识图谱服务 中有所涵盖;更广泛的战术图景在 2026 年 Wikipedia SEO 战术 中有详细介绍。
我们自己的 llms.txt,附注释
我们发布了两个层级——wikibusines.net/llms.txt 和 wikibusines.net/llms-full.txt——从站点规范数据自动生成,你可以直接在线阅读。以下是简短文件中的真实行,附有每个选择背后的理由:
# WikiBusines — LLM-readable summary
WikiBusines is a trust-infrastructure and AI-visibility company.
Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt
- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1,900, credited toward
project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim
- We do not guarantee Wikipedia publication. We run a risk-managed,
source-first process and recommend alternative routes when notability
is insufficient.
第一句话用一行定义了实体。如果模型只读取你文件的二十个 Token,这些 Token 应该说清楚你是什么。像写词典定义一样写,而不是写广告语。
指向完整档案的链接实现了规范的双层设计。索引保持简洁可浏览;需要全部信息的智能体跟随一个链接,即可在单次抓取中获得每一项服务、价格和常见问题解答。
事实性内容包含数字和日期。"成立于 2010 年"和"93%"是模型可以检索并精确重复的声明。形容词做不到这一点。
服务条目将规范 URL 与价格配对。当智能体被问及知名度审计费用是多少时,答案和目标链接就在同一行。
"我们不声称"部分是大多数公司永远不会写的内容。模型会复述其来源;如果你的文件过度声称,AI 的回答就会过度声称,潜在客户的第一次通话就会以纠正错误开始。陈述自身服务的局限性是准确性保险——与我们在每个页面上应用的诚实差异逻辑相同。
总耗时:约二十分钟,加上事实发生变化时的重新生成。2026 年现实的回报是智能体可读性和干净的 Lighthouse 审计,而非排名。我们将其视为廉价保险,并据此定价。
常见问题
llms.txt 对 SEO(搜索引擎优化)有帮助吗?
没有证据表明它有。Google 2026 年 5 月的搜索指南没有使用该文件,也没有任何搜索引擎宣布出于排名或 AI 概览的目的而读取它。如果目标是获得 AI 搜索引用,该做的工作仍然是传统方式:可抓取的 HTML、结构化数据,以及关于你的权威第三方来源。
ChatGPT 真的会读取我的 llms.txt 吗?
根据现有证据,很少。跨越数亿次机器人事件的分析显示,GPTBot 及其同类主要抓取 HTML,而在很大程度上忽略 /llms.txt。该文件近期的消费者是智能体浏览器和编程工具——以及 Lighthouse,其审计表明 Google Chrome 团队认为这是未来的发展方向。
小公司值得费心做吗?
大约花二十分钟,今天无法测量到任何变化,所以将其视为可选的低成本保险。跳过是合理的;认真做也很便宜。如果你部署了,保持其准确性并在事实变化时重新生成——一个误报你价格的过时文件,比没有文件更糟糕。
我应该先封锁 AI 爬虫,等决策成熟后再说吗?
首先检查你是否已经封锁了。如果你的域名在 2025 年 7 月 1 日之后加入 Cloudflare,AI 爬虫可能已经被默认封锁了,而你公司里没有任何人做出过这个决定。无论你的立场如何,请让它成为一个主动决策,而非继承来的默认设置。
llms.txt 是 AI 可读性中成本最低、影响最小的层级。真正有影响的层级是:AI 系统信任的来源——Wikipedia、Wikidata、知识平台——是否准确描述了你,以及你的公司的机器可读记录是否根本存在。这个堆栈正是我们构建的:请参阅 LLM Hub 了解完整架构,或从打开我们的 llms.txt 并与你自己域名的文件并排比较开始。如果你的返回 404,你现在已经准确知道这究竟意味着什么代价,以及什么不是代价。