Дискусія навколо llms.txt розкололася на два табори, і обидва продають впевненість. Перший називає його «новим robots.txt» і наступним захопленням SEO-земель: додай один файл — отримай AI-трафік. Другий цитує Google і оголошує всю ідею мертвою ще до запуску. Обидва читання оминають дані — а до середини 2026 року дані достатньо вагомі, щоб закрити більшість суперечки.
Ось чесна версія одразу. Серверні логи показують, що AI-краулери запитують цей файл рідко. Пошукові рекомендації Google не використовують його. І все ж власна команда Chrome від Google тепер перевіряє його наявність, агентний браузерний рівень, якому він служить, — реальний, а вартість публікації файлу складає приблизно двадцять хвилин. Ми публікуємо власний — /llms.txt і /llms-full.txt — і далі в цьому посібнику анотуємо його рядок за рядком, щоб ви побачили, як виглядає робочий файл і навіщо ми взагалі заморочились.
Що далі: специфікація, суперечність Google у травні 2026 року, яку ніхто не примирює, що кажуть 515 млн подій від ботів про стан прийняття, повний стек дозволів для краулерів, економіка «обхід до кліку» за дискусією про блокування та матриця рішень «блокувати чи відкрити» за типом бізнесу.
Що таке llms.txt — і чим він не є
llms.txt — це простий markdown-файл у кореневому каталозі вашого домену, який дає мовним моделям кураторський індекс вашого сайту: хто ви, які сторінки є канонічними, де живуть авторитетні відповіді. Джеремі Говард, співзасновник Answer.AI та fast.ai, запропонував специфікацію 3 вересня 2024 року. Передумова практична, а не візіонерська: HTML, створений для людей, зашумлений — навігація, скрипти, банери згоди — а контекстні вікна моделей скінченні, тому краще передати машині чисту карту, а не змушувати її самостійно розкопувати її.
Специфікація має два рівні. /llms.txt — це короткий індекс: резюме та кураторські посилання. /llms-full.txt — максималістський варіант: повний контент, вбудований в один машиночитаний документ, щоб агент міг завантажити все про вас за одним запитом.
Не менш важливо те, чим файл не є. Він не є robots.txt — нічого не дозволяє і нічого не забороняє, і жодного механізму примусового виконання за ним не існує. Він не є сигналом ранжування; жодна пошукова система не заявила, що читає файл для ранжування. І він не є засобом контролю доступу: краулер, що ігнорує його, нічого не втрачає. robots.txt каже «ось що ви можете завантажувати». llms.txt каже «ось що варто читати». Це різні завдання, і їх змішування породжує більшість хибних суджень.
Суперечність Google у травні 2026 року
За десять днів у травні 2026 року Google зробив два кроки, що вказують у протилежних напрямках — саме тому обидва табори можуть цитувати Google із серйозним видом.
Крок перший: 5 травня 2026 року Google додав аудит llms.txt до Lighthouse, свого інструменту перевірки якості сайту, у новій категорії агентного перегляду. Аудит сигналізує про проблему, якщо запит до /llms.txt повертає серверну помилку, а документація прямо пояснює логіку: "Without this file, agents may spend more time crawling the site to understand its high-level structure and primary content" (без цього файлу агентам може знадобитися більше часу на обхід сайту, щоб зрозуміти його структуру та основний зміст) (ppc.land).
Крок другий: 15 травня 2026 року Google опублікував офіційні рекомендації щодо оптимізації вебсайтів для генеративних AI-функцій у пошуку — AI Overviews та AI Mode. llms.txt у них відсутній. Рекомендації підтверджують те, що представники Google Search говорять із моменту появи специфікації: для AI-функцій у пошуку важливе стандартне технічне SEO, і цей файл для цієї мети не потрібен.
Примирення: ніякої суперечності немає — є два рівні. Google Search, включно з AI Overviews, ранжує та цитує контент зі свого наявного HTML-індексу; llms.txt сьогодні там не відіграє ролі, і Google послідовний у цьому. Агентний перегляд — коли AI-агент відвідує ваш сайт, щоб виконати завдання від імені користувача, — це інший шаблон споживання з іншими потребами, і саме цей рівень команда Chrome почала перевіряти. Той, хто каже вам «Google вимагає його» або «Google поховав його», цитує один рівень і ігнорує інший.
Що показують серверні логи: реальність прийняття
Історія прийняття має дві половини: видавці дедалі частіше публікують файл, а краулери здебільшого його ігнорують.
Агрегований аналіз 515 млн подій від ботів виявив, що запити до /llms.txt складають незначну частку трафіку AI-краулерів — похибку округлення на тлі обсягу завантажень сторінок (aeo.press). GPTBot, ClaudeBot та PerplexityBot переважно запитують HTML-сторінки — так, як завжди робили пошукові краулери. Конвеєри, що живлять навчальні корпуси та індекси пошуку, спроєктовані для HTML у вебмасштабі; паралельний markdown-файл — це оптимізація, яку ці конвеєри ще не впровадили.
З боку видавців: 7,4 відсотка компаній зі списку Fortune 500 — 37 із 500 — опублікували llms.txt станом на 31 березня 2026 року (ppc.land). Сайти з документацією для розробників прийняли його значно швидше, бо саме coding-агенти є тим споживачем, який сьогодні демонстровано читає ці файли.
Отже, чесне резюме логів: публікація llms.txt вимірно не змінює те, як великі AI-краулери читають ваш сайт у 2026 році. Той, хто продає це як розблокування AI-трафіку, продає вперед від доказів.
Стек дозволів для AI-краулерів у 2026 році
llms.txt обговорюють ізольовано, але він є одним інструментом у п'ятирівневому стеку, що контролює — або намагається контролювати — що AI-системи роблять з вашим контентом.
| Рівень | Що контролює | Хто виконує | Реальність виконання | Наш вердикт |
|---|---|---|---|---|
| Директиви robots.txt (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) | Чи можуть задекларовані краулери завантажувати ваші сторінки; Google-Extended регулює навчання Gemini, а не Search | Ніхто — добровільний протокол | Великі лабораторії дотримуються своїх задекларованих ботів; суперечки є — Cloudflare звинуватив Perplexity у використанні незадекларованих краулерів для обходу блоків у 2025 році | Ваш реальний вимикач — налаштуйте його свідомо |
| Content Signals Policy (contentsignals.org) | Декларує, як можна використовувати завантажений контент: search, ai-input, ai-train | Технічно ніхто; позиціонує сигнали як резервування прав | Надто нова, щоб вимірювати; поширюється через robots.txt від Cloudflare | Нічого не коштує; говорить більше до юристів, ніж до ботів |
| Блокування за замовчуванням від Cloudflare (Nieman Lab) | Блокує відомих AI-краулерів на мережевому рівні для нових доменів, із 1 липня 2025 року | Cloudflare — заблоковані запити ніколи не досягають вашого сервера | Реально виконується для великої частки вебу | Єдиний рівень із зубами; вмикайте або вимикайте свідомо, а не у спадок |
| Pay-per-crawl | Стягує з AI-краулерів плату за запит замість повного блокування | Маркетплейс Cloudflare, у бета-версії | Рання стадія; залежить від згоди лабораторій платити | Актуально для великих видавців, не для B2B-сайтів |
| llms.txt / llms-full.txt | Нічого — дорадчий список читання для моделей та агентів | Ніхто | Незначні частоти запитів у серверних логах; Lighthouse тепер перевіряє наявність файлу | Дешева страховка для агентного вебу; нульовий SEO-ефект сьогодні |
Зверніть увагу на закономірність. Рівні, про які сперечаються — llms.txt, Content Signals — є дорадчими. Рівень, що змінив поведінку краулерів за одну ніч, — це мережевий рівень Cloudflare, і він той, який більшість власників сайтів ніколи свідомо не налаштовували.
Економіка «обхід до кліку»: що повертає «відкриття контенту для AI»
Інстинкт блокування за замовчуванням спирається на економічний факт, тому назвемо його прямо. Дані Cloudflare Radar за Q1 2026 року показали співвідношення обходу до переходу — сторінок завантажених на один переданий людський клік — приблизно 1 276:1 для GPTBot від OpenAI та приблизно 23 951:1 для ClaudeBot від Anthropic (Cloudflare). Традиційний пошуковий обхід окупав сайти при співвідношеннях на порядки нижчих. AI-системи споживають контент у промисловому масштабі й повертають майже нульовий прямий трафік.
Якщо ваш бізнес монетизує перегляди сторінок, ця асиметрія близька до екзистенційної — і бунт видавців разом із експериментом Cloudflare з pay-per-crawl логічно з неї випливає.
Але це співвідношення вимірює кліки, а кліки — не єдина форма повернення. Обхід, що ніколи не надсилає відвідувача, усе одно визначає, чи знає вас модель, чи описує вас точно і чи називає вас, коли покупець просить скласти шорт-лист. Для B2B-компанії відповідь AI часто і є точкою дотику: потенційний клієнт просить ChatGPT порівняти постачальників, отримує відповідь, синтезовану з того, що могли прочитати краулери, а ваша аналітика ніколи не реєструє цю зустріч. Ми розібрали цей зсув у статті AEO vs GEO vs SEO — мета переміщується від виграшу кліку до того, щоб бути отриманою та точно процитованою відповіддю.
Блокувати чи відкрити? Матриця рішень за типом бізнесу
Універсальної відповіді немає, бо математика «обхід до кліку» різна залежно від того, для чого існує ваш контент.
| Тип бізнесу | Логіка доходу | AI-краулери | llms.txt | Обґрунтування |
|---|---|---|---|---|
| Видавець / медіа | Перегляди та підписки — це продукт | Блокувати або домовлятися через pay-per-crawl | Пропустити | При 1 276:1 і гірше відкритий доступ — це субсидія чужого продукту |
| B2B-бренд / послуги | Сайт — це актив продажів; бути відомим важливіше, ніж бути відвіданим | Відкрити | Публікувати | Ви хочете бути знайденим, коли покупці запитують AI про постачальників |
| Е-commerce | Дані про продукти рухають відкриттям; агенти дедалі частіше допомагають із покупками | Відкрити; стежити за витратами на інфраструктуру | Публікувати, з URL продуктів та правил | Відсутність у момент порівняння агентом — це втрачений дохід |
| Ліцензування контенту | Сам контент — це актив, що оцінюється | Блокувати, потім домовлятися | Пропустити | Дефіцит — це переговорний важіль |
Для більшості B2B-компаній — наших клієнтів і нас самих — відповідь: відкрити. Ваш маркетинговий сайт існує для того, щоб ринок знав, що ви робите. AI-система, що читає його та точно переповідає потенційному клієнту, безкоштовно виконує роботу сайту. Блокування GPTBot заради захисту контенту, чия єдина мета — бути відомим, перевертає стратегію з ніг на голову. І в міру того, як закупівлі зміщуються до взаємодій business-to-agent (B2A), де програмне забезпечення виконує завдання, які раніше робила людина, здатність бути знайденим накопичується: актив, вартий захисту, — це точність, а не доступ. Підтримання цієї точності на різних AI-платформах — це ядро роботи з AI-видимістю.
Наслідок закриття вебу: заблоковані сайти роблять Вікіпедію вашим проксі
І тепер ефект другого порядку, який майже ніхто не закладає в розрахунки. Cloudflare за замовчуванням блокує AI-краулерів для нових доменів. Видавці блокують або обмежують доступ. Pay-per-crawl перетворює те, що колись було безкоштовним, на платне. Відкритий веб, яким його бачить AI-краулер, скорочується.
Моделям усе одно потрібні джерела для заземлення, тому отримання даних концентрується на авторитетних корпусах, що залишаються відкритими за задумом: Вікіпедія, Wikidata, публічні реєстри, академічні репозиторії. Вільна ліцензія Вікіпедії дозволяє повторне використання, її контент структурований і містить посилання, і вона не за стіною обходу. Кожен сайт, що закривається, збільшує вагу джерел, що залишаються відкритими, у тому, що AI-системи знають і говорять.
Наслідок для бренду прямий. Якщо ваш власний сайт темний для краулерів — за вибором або через налаштування за замовчуванням вашого CDN — то ваша стаття у Вікіпедії, ваша сутність у Wikidata та інші відкриті джерела стають де-факто записом, який AI читає про вас. Це стратегічний зв'язок, який дискусії навколо llms.txt пропускають — і саме тому ми розглядаємо енциклопедичну присутність як інфраструктуру, а не марнославство: це частина вашого запису, що залишається доступною незалежно від того, як еволюціонує стек дозволів. Механіка розглядається у Wikipedia AEO та нашому сервісі Wikidata та граф знань; ширша тактична картина — у статті Тактики Wikipedia SEO для 2026 року.
Наш власний llms.txt з анотаціями
Ми публікуємо обидва рівні — wikibusines.net/llms.txt і wikibusines.net/llms-full.txt — автоматично згенеровані з канонічних даних сайту, і ви можете прочитати їх у реальному часі. Ось реальні рядки з короткого файлу з поясненням логіки за кожним вибором:
# WikiBusines — LLM-readable summary
WikiBusines is a trust-infrastructure and AI-visibility company.
Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt
- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1,900, credited toward
project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim
- We do not guarantee Wikipedia publication. We run a risk-managed,
source-first process and recommend alternative routes when notability
is insufficient.
Перше речення визначає сутність в одному рядку. Якщо модель читає лише двадцять токенів вашого файлу, ці токени мають говорити, що ви є. Пишіть як словникове визначення, а не як слоган.
Посилання на повний профіль реалізує дворівневий дизайн специфікації. Індекс залишається легким для перегляду; агент, якому потрібне все, переходить за одним посиланням і отримує кожну послугу, ціну та відповідь на FAQ за одним запитом.
Факти несуть числа та дати. «Founded: 2010» і «93%» — це твердження, які модель може отримати та точно повторити. Прикметники — ні.
Рядки послуг поєднують канонічні URL з цінами. Коли агента запитують, скільки коштує аудит значущості (notability), відповідь і пункт призначення знаходяться в одному рядку.
Розділ «What we do not claim» — це частина, яку більшість компаній ніколи б не написали. Моделі відтворюють свої джерела; якщо ваш файл перебільшує, відповідь AI перебільшує, і перший дзвінок потенційного клієнта починається з виправлення. Формулювання меж власного сервісу — це страховка точності; та сама логіка чесної відмінності, яку ми застосовуємо на кожній сторінці.
Загальні витрати зусиль: близько двадцяти хвилин плюс перегенерація при зміні фактів. Реалістична окупність у 2026 році — читабельність для агентів і чистий аудит Lighthouse, а не позиції. Ми розглядаємо це як дешеву страховку, оцінену відповідно.
FAQ
Чи допомагає llms.txt SEO?
Доказів цього немає. Пошукові рекомендації Google від травня 2026 року не використовують файл, і жодна пошукова система не оголошувала про його читання для ранжування або AI Overviews. Якщо мета — цитати в AI-пошуку, робота залишається традиційною: доступний для обходу HTML, структуровані дані та авторитетні сторонні джерела про вас.
Чи реально прочитає мій llms.txt ChatGPT?
Рідко, за наявними даними. Аналізи, що охоплюють сотні мільйонів подій від ботів, показують, що GPTBot та його аналоги завантажують HTML і здебільшого ігнорують /llms.txt. Найближчі споживачі файлу — агентні браузери та coding-інструменти — плюс Lighthouse, чий аудит сигналізує, куди, на думку команди Chrome від Google, рухається ситуація.
Чи варто морочитися малій компанії?
Це коштує близько двадцяти хвилин і нічого вимірно не змінює сьогодні, тому ставтеся до цього як до необов'язкової, дешевої страховки. Пропустити — розумно; зробити правильно — дешево. Якщо публікуєте, тримайте файл точним і перегенеровуйте при зміні фактів — застарілий файл із неправильними цінами гірший, ніж відсутність файлу.
Чи варто блокувати AI-краулерів, поки я вирішую?
Спочатку перевірте, чи ви вже це робите. Якщо ваш домен приєднався до Cloudflare після 1 липня 2025 року, AI-краулери можуть бути заблоковані за замовчуванням, і ніхто у вашій компанії нічого не вирішував. Якою б не була ваша позиція, зробіть це рішенням, а не успадкованим налаштуванням.
llms.txt — найдешевший і найменш значущий рівень читабельності для AI. Значущі рівні — це чи точно описують вас джерела, яким довіряють AI-системи — Вікіпедія, Wikidata, знаннєві платформи — і чи взагалі існує машиночитаний запис про вашу компанію. Саме цей стек ми будуємо: дивіться LLM Hub для повної архітектури або почніть, відкривши наш llms.txt поряд із власним доменом. Якщо ваш повертає 404, ви тепер знаєте точно, що це коштує і чого не коштує.