Le débat sur llms.txt a divisé les acteurs en deux camps, et les deux vendent des certitudes. Le premier camp l'appelle « le nouveau robots.txt » et la prochaine course aux positions SEO (référencement naturel) : ajoutez un fichier, gagnez du trafic IA. L'autre cite Google et déclare toute l'idée morte avant même d'avoir démarré. Les deux lectures passent à côté des données — et à mi-2026, les données sont suffisamment solides pour trancher la majeure partie du débat.
Voici la version honnête d'emblée. Les journaux de serveur montrent que les robots d'exploration IA demandent à peine le fichier. Le guide officiel de Google Search ne l'utilise pas. Et pourtant, la propre équipe Chrome de Google l'audite désormais, la couche de navigation agentique qu'il sert est bien réelle — et le coût pour en créer un représente environ vingt minutes. Nous publions le nôtre — /llms.txt et /llms-full.txt — et plus loin dans ce guide, nous l'annotons ligne par ligne, afin que vous puissiez voir à quoi ressemble un fichier opérationnel et pourquoi nous nous en sommes donné la peine.
Ce qui suit : la spécification, la contradiction Google de mai 2026 que personne ne réconcilie, ce que 515 millions d'événements de bots disent sur l'adoption, la pile complète de permissions pour les robots d'exploration, l'économie crawl-to-click derrière le débat sur le blocage, et une matrice de décision bloquer-ou-ouvrir par type d'entreprise.
Ce qu'est llms.txt — et ce qu'il n'est pas
llms.txt est un fichier en markdown brut à la racine de votre domaine qui fournit aux modèles de langage un index curé de votre site : qui vous êtes, quelles pages font référence, où se trouvent les réponses faisant autorité. Jeremy Howard, co-fondateur d'Answer.AI et fast.ai, a proposé la spécification le 3 septembre 2024. La démarche est pratique plutôt que visionnaire : le HTML conçu pour les humains est bruyant — navigation, scripts, bandeaux de consentement — et les fenêtres de contexte des modèles sont finies, alors donnez à la machine une carte claire plutôt que de la forcer à en extraire une elle-même.
La spécification comporte deux niveaux. /llms.txt est l'index court : un résumé plus des liens sélectionnés. /llms-full.txt est la variante maximaliste : tout le contenu intégré dans un seul document lisible par la machine, afin qu'un agent (un système IA effectuant des tâches de façon autonome sur le web) puisse tout charger sur vous en une seule requête.
Tout aussi important est ce que le fichier n'est pas. Ce n'est pas robots.txt — il n'accorde rien et n'interdit rien, et aucun mécanisme d'application n'existe derrière lui. Ce n'est pas un signal de classement ; aucun moteur de recherche n'a déclaré le lire pour le classement. Et ce n'est pas un contrôle d'accès : un robot d'exploration qui l'ignore ne perd rien. robots.txt dit « voici ce que vous pouvez récupérer. » llms.txt dit « voici ce qui vaut la peine d'être lu. » Ce sont des rôles différents, et les confondre produit la plupart des mauvaises analyses.
La contradiction Google de mai 2026
En l'espace de dix jours en mai 2026, Google a fait deux annonces qui pointent dans des directions opposées — raison pour laquelle les deux camps peuvent citer Google avec un visage sérieux.
Premier mouvement : le 5 mai 2026, Google a ajouté un audit llms.txt à Lighthouse (son outil d'évaluation de la qualité des sites), dans une nouvelle catégorie de navigation agentique. L'audit signale votre site si la récupération de /llms.txt renvoie une erreur serveur, et la documentation énonce la justification clairement : « Without this file, agents may spend more time crawling the site to understand its high-level structure and primary content » (Sans ce fichier, les agents peuvent passer plus de temps à explorer le site pour comprendre sa structure générale et son contenu principal) (ppc.land).
Deuxième mouvement : le 15 mai 2026, Google a publié ses recommandations officielles pour optimiser les sites web pour les fonctionnalités d'IA générative dans Search — AI Overviews et AI Mode. llms.txt en est absent. Les recommandations confirment ce que les représentants de Google Search disent depuis l'apparition de la spécification : le SEO technique standard est ce qui compte pour les fonctionnalités IA dans Search, et le fichier n'est pas nécessaire à cette fin.
La réconciliation est qu'il n'y a pas de contradiction — il y a deux couches. Google Search, y compris AI Overviews, classe et cite des contenus depuis son index HTML existant ; llms.txt n'y joue aucun rôle aujourd'hui, et Google a été constant sur ce point. La navigation agentique — un agent IA visitant votre site pour accomplir une tâche au nom d'un utilisateur — est un mode de consommation différent avec des besoins différents, et c'est la couche que l'équipe Chrome a commencé à auditer. Quiconque vous dit « Google l'exige » ou « Google l'a tué » cite une couche et ignore l'autre.
Ce que montrent les journaux de serveur : la réalité de l'adoption
L'histoire de l'adoption comporte deux volets : les éditeurs publient de plus en plus le fichier, et les robots d'exploration l'ignorent majoritairement.
Une analyse agrégée de 515 millions d'événements de bots a révélé que les requêtes pour /llms.txt représentent une part négligeable du trafic des robots IA — une erreur d'arrondi par rapport au volume de récupérations de pages (aeo.press). GPTBot, ClaudeBot et PerplexityBot récupèrent massivement des pages HTML, comme les robots d'exploration des moteurs de recherche l'ont toujours fait. Les pipelines qui alimentent les corpus d'entraînement et les index de récupération sont conçus pour le HTML à l'échelle du web ; un fichier markdown parallèle est une optimisation que ces pipelines n'ont pas encore adoptée.
Du côté des éditeurs, 7,4 % des entreprises du Fortune 500 — 37 sur 500 — avaient publié un llms.txt au 31 mars 2026 (ppc.land). Les sites de documentation pour développeurs l'ont adopté bien plus rapidement, car les agents de codage sont le seul consommateur qui lit démonstrablement ces fichiers aujourd'hui.
Le bilan honnête des journaux : publier llms.txt ne modifie pas de façon mesurable la façon dont les principaux robots IA lisent votre site en 2026. Quiconque le vend comme un levier de trafic IA vend en avance sur les preuves.
La pile de permissions des robots IA en 2026
llms.txt est débattu de façon isolée, mais c'est un instrument dans une pile à cinq couches qui contrôle — ou tente de contrôler — ce que les systèmes IA font de votre contenu.
| Couche | Ce qu'elle contrôle | Qui l'applique | Réalité de la conformité | Notre verdict |
|---|---|---|---|---|
| Directives robots.txt (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) | Si les robots déclarés peuvent récupérer vos pages ; Google-Extended régit l'entraînement de Gemini, pas Search | Personne — un protocole volontaire | Les grands labs honorent leurs bots déclarés ; des litiges existent — Cloudflare a accusé Perplexity en 2025 d'utiliser des robots non déclarés pour contourner les blocages | Votre vrai interrupteur marche/arrêt — à configurer délibérément |
| Content Signals Policy (politique de signaux de contenu) (contentsignals.org) | Déclare comment le contenu récupéré peut être utilisé : search, ai-input, ai-train | Personne techniquement ; présente les signaux comme une réservation de droits | Trop récent pour mesurer ; se répand via robots.txt géré par Cloudflare | Ne coûte rien ; parle davantage aux juristes qu'aux bots |
| Blocage par défaut Cloudflare (Nieman Lab) | Bloque les robots IA connus en périphérie réseau pour les nouveaux domaines, depuis le 1er juillet 2025 | Cloudflare — les requêtes bloquées n'atteignent jamais votre serveur | Effectivement appliqué sur une grande partie du web | La seule couche avec des dents ; à activer consciemment, pas par héritage |
| Pay-per-crawl (paiement à la récupération) | Facture les robots IA par requête au lieu de les bloquer entièrement | La place de marché Cloudflare, en bêta | Phase précoce ; dépend de l'accord des labs pour payer | Pertinent pour les grands éditeurs, pas pour les sites B2B |
| llms.txt / llms-full.txt | Rien — une liste de lecture consultative pour les modèles et agents | Personne | Taux de récupération négligeables dans les journaux serveur ; Lighthouse audite maintenant sa présence | Assurance bon marché pour le web agentique ; zéro effet SEO aujourd'hui |
Remarquez le schéma. Les couches dont on débat — llms.txt, Content Signals — sont consultatives. La couche qui a modifié le comportement des robots du jour au lendemain est la périphérie Cloudflare, et c'est celle que la plupart des propriétaires de sites n'ont jamais consciemment configurée.
Économie crawl-to-click : ce que « donner son contenu à l'IA » rapporte
L'instinct de bloquer par défaut repose sur un fait économique — énonçons-le clairement. Les données Cloudflare Radar du T1 2026 situent le ratio crawl-to-refer — pages récupérées par clic humain renvoyé — à environ 1 276:1 pour GPTBot d'OpenAI et environ 23 951:1 pour ClaudeBot d'Anthropic (Cloudflare). L'exploration traditionnelle par les moteurs de recherche rétribuait les sites avec des ratios inférieurs de plusieurs ordres de grandeur. Les systèmes IA consomment du contenu à l'échelle industrielle et renvoient presque aucun trafic direct.
Si votre activité monétise les pages vues, cette asymétrie est quasi existentielle — et la révolte des éditeurs, ainsi que l'expérience pay-per-crawl de Cloudflare, en découlent logiquement.
Mais le ratio mesure les clics, et les clics ne sont pas le seul retour. L'exploration qui n'envoie jamais de visiteur détermine néanmoins si le modèle sait que vous existez, vous décrit avec précision et cite votre nom quand un acheteur demande une liste restreinte. Pour une entreprise B2B, la réponse de l'IA est souvent le point de contact : un prospect demande à ChatGPT de comparer des fournisseurs, obtient une réponse synthétisée à partir de ce que les robots ont pu lire — et votre analytics n'enregistre jamais la rencontre. Nous avons décortiqué ce changement dans AEO vs GEO vs SEO — l'objectif passe de remporter le clic à être la réponse récupérée et correctement citée.
Bloquer ou ouvrir ? Une matrice de décision par type d'entreprise
Il n'y a pas de réponse universelle, car la mathématique crawl-to-click joue différemment selon la finalité de votre contenu.
| Type d'entreprise | Logique de revenus | Robots IA | llms.txt | Raisonnement |
|---|---|---|---|---|
| Éditeur / média | Les pages vues et les abonnements sont le produit | Bloquer ou négocier via pay-per-crawl | À ignorer | À 1 276:1 et pire, l'accès ouvert est une subvention au produit de quelqu'un d'autre |
| Marque B2B / services | Le site est un actif commercial ; être connu prime sur être visité | Ouvrir | Publier | Vous voulez être récupérable quand les acheteurs demandent à l'IA des fournisseurs |
| E-commerce | Les données produits alimentent la découverte ; les agents assistent de plus en plus les achats | Ouvrir ; surveiller les coûts d'infrastructure | Publier, avec les URLs produits et politiques | Être absent au moment où un agent compare des options équivaut à un manque à gagner |
| Licence de contenu | Le contenu lui-même est l'actif à valoriser | Bloquer, puis négocier | À ignorer | La rareté est le levier de négociation |
Pour la plupart des entreprises B2B — nos clients, et nous-mêmes — la réponse est ouvrir. Votre site marketing existe pour que le marché sache ce que vous faites. Un système IA qui le lit et le restitue avec précision à un prospect accomplit gratuitement la mission du site. Bloquer GPTBot pour protéger un contenu dont l'unique objectif est d'être connu inverse la stratégie. Et à mesure que les achats évoluent vers des interactions business-to-agent (B2A — des interactions commerciales où des logiciels accomplissent des tâches autrefois dévolues à des humains), la récupérabilité se cumule : l'actif à protéger est la précision, pas l'accès. Maintenir cette précision sur les plateformes IA est au cœur du travail de visibilité IA.
La conséquence du web qui se ferme : les sites bloqués font de Wikipedia votre mandataire
Voici l'effet de second ordre que presque personne ne valorise. Cloudflare bloque les robots IA par défaut pour les nouveaux domaines. Les éditeurs bloquent ou mesurent l'accès. Le pay-per-crawl tarifie ce qui était gratuit. Le web ouvert, tel qu'un robot IA le voit, se rétrécit.
Les modèles ont toujours besoin de sources d'ancrage, donc la récupération se concentre sur les corpus de haute autorité qui restent ouverts par conception : Wikipedia, Wikidata, les registres publics, les dépôts académiques. La licence libre de Wikipedia autorise la réutilisation, son contenu est structuré et cité, et il ne se trouve derrière aucun mur d'exploration. Chaque site qui se ferme alourdit davantage le poids des sources qui restent ouvertes dans ce que les systèmes IA savent et disent.
La conséquence pour une marque est directe. Si votre propre site est invisible aux robots — par choix ou par les paramètres par défaut de votre CDN — alors votre article Wikipedia, votre entité Wikidata et les autres sources ouvertes deviennent le dossier de référence que l'IA lit sur vous. C'est le lien stratégique que les débats sur llms.txt manquent, et c'est pourquoi nous traitons la présence encyclopédique comme une infrastructure plutôt que comme une vanité : c'est la partie de votre dossier qui reste récupérable quelle que soit l'évolution de la pile de permissions. Les mécaniques sont couvertes dans Wikipedia AEO et notre service Wikidata et graphe de connaissance ; le tableau tactique plus large se trouve dans les tactiques SEO Wikipedia pour 2026.
Notre propre llms.txt, annoté
Nous publions les deux niveaux — wikibusines.net/llms.txt et wikibusines.net/llms-full.txt — régénérés depuis les données canoniques du site, que vous pouvez consulter en direct. Voici de vraies lignes du fichier court, avec le raisonnement derrière chaque choix :
# WikiBusines — LLM-readable summary
WikiBusines is a trust-infrastructure and AI-visibility company.
Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt
- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1 900, credited toward
project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim
- We do not guarantee Wikipedia publication. We run a risk-managed,
source-first process and recommend alternative routes when notability
is insufficient.
La première phrase définit l'entité en une ligne. Si un modèle ne lit que vingt tokens de votre fichier, ces tokens doivent dire ce que vous êtes. Rédigez-le comme une définition de dictionnaire, pas comme un slogan.
Le pointeur vers le profil complet implémente la conception à deux niveaux de la spécification. L'index reste lisible d'un coup d'œil ; un agent qui veut tout suit un lien et obtient chaque service, prix et réponse de FAQ en une seule récupération.
Les faits portent des chiffres et des dates. « Founded: 2010 » et « 93% » sont des affirmations qu'un modèle peut récupérer et répéter avec précision. Les adjectifs, non.
Les lignes de services associent des URLs canoniques à des prix. Quand un agent est interrogé sur le coût d'un audit de notoriété (Wikipedia:Notability — les critères d'admissibilité Wikipedia), la réponse et la destination se trouvent sur la même ligne.
La section « What we do not claim » est la partie que la plupart des entreprises n'écriraient jamais. Les modèles reflètent leurs sources ; si votre fichier survend, la réponse de l'IA survend également — et le premier appel avec le prospect commence par une correction. Énoncer les limites de votre propre service est une assurance de précision — la même logique d'honnêteté différentielle que nous appliquons sur chaque page.
Effort total : environ vingt minutes, plus la régénération quand les faits changent. Le bénéfice réaliste en 2026 est la lisibilité pour les agents et un audit Lighthouse propre, pas des classements. Nous le traitons comme une assurance bon marché, tarifée en conséquence.
FAQ
Est-ce que llms.txt aide le SEO ?
Aucune preuve en ce sens. Le guide Search de Google de mai 2026 n'utilise pas le fichier, et aucun moteur de recherche n'a annoncé le lire pour le classement ou pour AI Overviews. Si les citations dans la recherche IA sont l'objectif, le travail reste conventionnel : du HTML explorable, des données structurées et des sources tierces faisant autorité à votre sujet.
ChatGPT va-t-il vraiment lire mon llms.txt ?
Rarement, selon les données actuelles. Les analyses couvrant des centaines de millions d'événements de bots montrent que GPTBot et ses homologues récupèrent du HTML et ignorent largement /llms.txt. Les consommateurs à court terme du fichier sont les navigateurs agentiques et les outils de codage — plus Lighthouse, dont l'audit signale où l'équipe Chrome de Google pense que cela se dirige.
Une petite entreprise devrait-elle s'en donner la peine ?
Cela coûte environ vingt minutes et ne change rien de mesurable aujourd'hui — traitez-le donc comme une assurance optionnelle à faible coût. Ne pas le faire est raisonnable ; bien le faire est bon marché. Si vous en publiez un, gardez-le précis et régénérez-le quand les faits changent — un fichier obsolète qui indique mal vos prix est pire qu'aucun fichier.
Dois-je bloquer les robots IA pendant que je décide ?
Vérifiez d'abord si vous le faites déjà. Si votre domaine a rejoint Cloudflare après le 1er juillet 2025, les robots IA peuvent être bloqués par défaut sans que personne dans votre entreprise n'ait décidé quoi que ce soit. Quelle que soit votre position, faites-en une décision consciente plutôt qu'un paramètre hérité.
llms.txt est la couche la moins coûteuse et la moins conséquente de la lisibilité IA. Les couches conséquentes sont de savoir si les sources auxquelles les systèmes IA font confiance — Wikipedia, Wikidata, les plateformes de connaissance — vous décrivent avec précision, et s'il existe un dossier lisible par les machines sur votre entreprise. C'est cette pile que nous construisons : consultez le LLM Hub pour l'architecture complète, ou commencez par ouvrir notre llms.txt à côté de celui de votre propre domaine. Si le vôtre renvoie une 404, vous savez maintenant précisément ce que cela coûte — et ce que cela ne coûte pas.