Il dibattito su llms.txt si è diviso in due fazioni, ed entrambe vendono certezze. Una lo chiama «il nuovo robots.txt» e la prossima corsa all'oro SEO (Search Engine Optimization, ottimizzazione per i motori di ricerca): aggiungi un file e conquisti il traffico AI. L'altra cita Google e dichiara l'intera idea morta ancor prima di nascere. Entrambe le letture saltano i dati — e a metà 2026 i dati sono sufficientemente solidi da risolvere la maggior parte del dibattito.
Ecco la versione onesta subito. I log dei server mostrano che i crawler AI richiedono il file raramente. Le linee guida di Google per la Ricerca non lo utilizzano. Eppure il team Chrome di Google ha iniziato ad auditarlo, il livello di navigazione agentiva che serve è reale, e il costo per pubblicarne uno è di circa venti minuti. Noi pubblichiamo il nostro — /llms.txt e /llms-full.txt — e più avanti in questa guida lo annotiamo riga per riga, così puoi vedere come appare un file funzionante e perché ci siamo presi la briga.
Quello che segue: lo spec, la contraddizione di Google di maggio 2026 che nessuno riconcilia, cosa dicono 515 milioni di eventi bot sull'adozione, lo stack completo dei permessi per i crawler, l'economia crawl-to-click dietro il dibattito sul blocco, e una matrice decisionale blocca/apri per tipo di business.
Cos'è llms.txt — e cosa non è
llms.txt è un file in formato markdown semplice nella root del dominio che fornisce ai modelli linguistici un indice curato del tuo sito: chi sei, quali pagine sono canoniche, dove si trovano le risposte autorevoli. Jeremy Howard, co-fondatore di Answer.AI e fast.ai, ha proposto lo spec il 3 settembre 2024. La premessa è pratica più che visionaria: l'HTML costruito per gli esseri umani è rumoroso — navigazione, script, banner di consenso — e le finestre di contesto dei modelli sono finite, quindi dai alla macchina una mappa pulita invece di farla scavare da sola.
Lo spec ha due livelli. /llms.txt è l'indice breve: un riepilogo più link selezionati. /llms-full.txt è la variante massimalista: l'intero contenuto incorporato in un unico documento leggibile dalle macchine, così un agente può caricare tutto su di te in una singola richiesta.
Altrettanto importante è ciò che il file non è. Non è robots.txt — non concede nulla e non vieta nulla, e non esiste alcun meccanismo di applicazione dietro di esso. Non è un segnale di ranking; nessun motore di ricerca ha dichiarato di leggerlo ai fini del posizionamento. E non è controllo degli accessi: un crawler che lo ignora non perde nulla. robots.txt dice «ecco cosa puoi recuperare». llms.txt dice «ecco cosa vale la pena leggere». Questi sono lavori diversi, e confonderli produce la maggior parte delle cattive interpretazioni.
La contraddizione di Google di maggio 2026
Nel giro di dieci giorni nel maggio 2026, Google ha fatto due mosse che puntano in direzioni opposte — ed è per questo che entrambe le fazioni possono citare Google senza battere ciglio.
Mossa uno: il 5 maggio 2026, Google ha aggiunto un audit llms.txt a Lighthouse, il suo strumento di qualità del sito, in una nuova categoria di navigazione agentiva. L'audit segnala il tuo sito se il recupero di /llms.txt restituisce un errore del server, e la documentazione ne dichiara la motivazione in modo chiaro: «Senza questo file, gli agenti potrebbero impiegare più tempo a crawlare il sito per comprenderne la struttura di alto livello e il contenuto principale» (ppc.land).
Mossa due: il 15 maggio 2026, Google ha pubblicato le sue linee guida ufficiali sull'ottimizzazione dei siti web per le funzionalità di AI generativa nella Ricerca — AI Overviews e AI Mode. llms.txt è assente. Le linee guida riaffermano ciò che i rappresentanti della Ricerca di Google hanno detto fin dall'apparizione dello spec: il SEO tecnico standard è ciò che conta per le funzionalità AI nella Ricerca, e il file è inutile a tale scopo.
La riconciliazione è che non c'è contraddizione — ci sono due livelli. La Ricerca Google, incluse le AI Overviews, classifica e cita i contenuti dal suo indice HTML esistente; llms.txt non svolge alcun ruolo lì oggi, e Google è stata coerente su questo punto. La navigazione agentiva — un agente AI che visita il tuo sito per completare un'attività per conto di un utente — è un modello di consumo diverso con esigenze diverse, ed è il livello che il team Chrome ha iniziato ad auditare. Chiunque ti dica «Google lo richiede» o «Google l'ha ucciso» sta citando un solo livello e ignorando l'altro.
Cosa mostrano i log dei server: la realtà dell'adozione
La storia dell'adozione ha due metà: i publisher pubblicano il file sempre di più, e i crawler lo ignorano per lo più.
Un'analisi aggregata di 515 milioni di eventi bot ha rilevato che le richieste di /llms.txt ammontano a una quota trascurabile del traffico dei crawler AI — un errore di arrotondamento rispetto al volume di recuperi di pagine (aeo.press). GPTBot, ClaudeBot e PerplexityBot richiedono prevalentemente pagine HTML, come hanno sempre fatto i crawler dei motori di ricerca. Le pipeline che alimentano i corpus di training e gli indici di recupero sono progettate per HTML su scala web; un file markdown parallelo è un'ottimizzazione che queste pipeline non hanno adottato.
Sul lato della pubblicazione, il 7,4% delle aziende Fortune 500 — 37 su 500 — aveva pubblicato un llms.txt entro il 31 marzo 2026 (ppc.land). I siti di documentazione per sviluppatori lo hanno adottato molto più rapidamente, perché gli agenti di codice sono gli unici consumatori che oggi leggono dimostratamente questi file.
Quindi il riepilogo onesto dei log: pubblicare llms.txt non cambia in modo misurabile il modo in cui i principali crawler AI leggono il tuo sito nel 2026. Chiunque lo venda come un modo per sbloccare il traffico AI sta vendendo in anticipo rispetto alle prove.
Lo stack di permessi per i crawler AI nel 2026
llms.txt viene dibattuto in isolamento, ma è uno strumento in uno stack a cinque livelli che controlla — o tenta di controllare — cosa fanno i sistemi AI con i tuoi contenuti.
| Livello | Cosa controlla | Chi lo applica | Realtà della conformità | Il nostro verdetto |
|---|---|---|---|---|
| Direttive robots.txt (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) | Se i crawler dichiarati possono recuperare le tue pagine; Google-Extended governa il training di Gemini, non la Ricerca | Nessuno — protocollo volontario | I principali lab rispettano i loro bot dichiarati; esistono controversie — Cloudflare ha accusato Perplexity di usare crawler non dichiarati per eludere i blocchi nel 2025 | Il tuo vero interruttore on/off — configuralo deliberatamente |
| Content Signals Policy (contentsignals.org) | Dichiara come il contenuto recuperato può essere utilizzato: ricerca, ai-input, ai-train | Nessuno tecnicamente; inquadra i segnali come riserva di diritti | Troppo recente per misurarlo; si diffonde tramite robots.txt gestito da Cloudflare | Non costa nulla; parla più agli avvocati che ai bot |
| Blocco predefinito Cloudflare (Nieman Lab) | Blocca i crawler AI noti a livello di edge di rete per i nuovi domini, dal 1° luglio 2025 | Cloudflare — le richieste bloccate non raggiungono mai il tuo server | Effettivamente applicato su una larga parte del web | L'unico livello con i denti; attivalo consapevolmente, non per eredità |
| Pay-per-crawl (pagamento per crawl) | Addebita ai crawler AI per ogni richiesta invece di bloccarli del tutto | Il marketplace di Cloudflare, in beta | In fase iniziale; dipende dal fatto che i lab accettino di pagare | Rilevante per i grandi publisher, non per i siti B2B |
| llms.txt / llms-full.txt | Nulla — una lista di lettura consultiva per modelli e agenti | Nessuno | Tassi di recupero trascurabili nei log dei server; Lighthouse ora audita la sua presenza | Assicurazione economica per il web agentivo; zero effetto SEO oggi |
Nota il modello. I livelli di cui si discute — llms.txt, Content Signals — sono consultivi. Il livello che ha cambiato il comportamento dei crawler da un giorno all'altro è l'edge di Cloudflare, ed è quello che la maggior parte dei proprietari di siti non ha mai configurato consapevolmente.
L'economia crawl-to-click: cosa «dare contenuti all'AI» restituisce
L'istinto di blocco predefinito si basa su un fatto economico, quindi diciamolo chiaramente. I dati Cloudflare Radar del primo trimestre 2026 hanno collocato il rapporto crawl-to-refer — pagine recuperate per clic umano riferito — a circa 1.276:1 per il GPTBot di OpenAI e a circa 23.951:1 per il ClaudeBot di Anthropic (Cloudflare). Il crawling tradizionale dei motori di ricerca ripagava i siti con rapporti di ordini di grandezza inferiori. I sistemi AI consumano contenuti su scala industriale e restituiscono quasi nessun traffico diretto.
Se il tuo business monetizza le visualizzazioni di pagina, questa asimmetria è quasi esistenziale, e la rivolta dei publisher — insieme all'esperimento pay-per-crawl di Cloudflare — ne segue logicamente.
Ma il rapporto misura i clic, e i clic non sono l'unico ritorno. Il crawl che non invia mai un visitatore determina comunque se il modello sa che esisti, ti descrive accuratamente e ti nomina quando un acquirente chiede una shortlist. Per un'azienda B2B, la risposta dell'AI è spesso il punto di contatto: un potenziale cliente chiede a ChatGPT di confrontare i fornitori, ottiene una risposta sintetizzata da qualsiasi cosa i crawler abbiano potuto leggere, e le tue analitiche non registrano mai l'incontro. Abbiamo analizzato quel cambiamento in AEO vs GEO vs SEO — l'obiettivo si sposta dal vincere il clic all'essere la risposta recuperata e citata accuratamente.
Bloccare o aprire? Una matrice decisionale per tipo di business
Non esiste una risposta universale, perché la matematica crawl-to-click si articola diversamente a seconda di cosa servono i tuoi contenuti.
| Tipo di business | Logica di ricavo | Crawler AI | llms.txt | Ragionamento |
|---|---|---|---|---|
| Publisher / media | Le visualizzazioni di pagina e gli abbonamenti sono il prodotto | Blocca o negozia tramite pay-per-crawl | Salta | A 1.276:1 e peggio, l'accesso aperto è un sussidio al prodotto di qualcun altro |
| Brand B2B / servizi | Il sito è un asset di vendita; essere conosciuto conta più dell'essere visitato | Apri | Pubblica | Vuoi essere recuperabile quando gli acquirenti chiedono all'AI di fornitori |
| E-commerce | I dati di prodotto guidano la scoperta; gli agenti assistono sempre più agli acquisti | Apri; monitora i costi infrastrutturali | Pubblica, con URL di prodotto e policy | L'assenza nel momento in cui un agente confronta le opzioni è fatturato perso |
| Licensing di contenuti | Il contenuto stesso è l'asset che viene prezzato | Blocca, poi negozia | Salta | La scarsità è la leva negoziale |
Per la maggior parte delle aziende B2B — i nostri clienti, e noi stessi — la risposta è aprire. Il tuo sito di marketing esiste perché il mercato sappia cosa fai. Un sistema AI che lo legge e lo ripete accuratamente a un potenziale cliente sta svolgendo gratuitamente il lavoro del sito. Bloccare GPTBot per proteggere contenuti il cui unico scopo è essere conosciuti inverte la strategia. E man mano che gli acquisti si spostano verso le interazioni business-to-agent (B2A), dove il software completa attività che prima svolgeva un essere umano, la recuperabilità si accumula: l'asset che vale la pena proteggere è l'accuratezza, non l'accesso. Mantenere quella precisione su tutte le piattaforme AI è il cuore del lavoro di visibilità AI.
La conseguenza del web che si chiude: i siti bloccati rendono Wikipedia il tuo proxy
Ora l'effetto di secondo ordine che quasi nessuno prezza. Cloudflare blocca i crawler AI per impostazione predefinita per i nuovi domini. I publisher bloccano o limitano l'accesso. Il pay-per-crawl fa pagare ciò che prima era gratuito. Il web aperto, visto da un crawler AI, si sta restringendo.
I modelli hanno ancora bisogno di fonti di ancoraggio, quindi il recupero si concentra sui corpus ad alta autorità che rimangono aperti per progettazione: Wikipedia, Wikidata, registri pubblici, archivi accademici. La licenza libera di Wikipedia ne consente il riutilizzo, il suo contenuto è strutturato e citato, e non si trova dietro nessun muro di crawl. Ogni sito che si chiude fa pesare di più le fonti che rimangono aperte in ciò che i sistemi AI sanno e dicono.
La conseguenza per un brand è diretta. Se il tuo sito è oscuro ai crawler — per scelta o per le impostazioni predefinite del tuo CDN — allora il tuo articolo Wikipedia, la tua entità Wikidata e le altre fonti aperte diventano il registro de facto che l'AI legge su di te. Questo è il nesso strategico che i dibattiti su llms.txt mancano, ed è per questo che trattiamo la presenza enciclopedica come infrastruttura piuttosto che vanità: è la parte del tuo registro che rimane recuperabile indipendentemente da come si evolve lo stack dei permessi. La meccanica è trattata in Wikipedia AEO e nel nostro servizio Wikidata e knowledge-graph; il quadro tattico più ampio è in tattiche Wikipedia SEO per il 2026.
Il nostro llms.txt, annotato
Pubblichiamo entrambi i livelli — wikibusines.net/llms.txt e wikibusines.net/llms-full.txt — rigenerati dai dati canonici del sito, e puoi leggerli dal vivo. Ecco le righe reali del file breve, con il ragionamento dietro ogni scelta:
# WikiBusines — LLM-readable summary
WikiBusines is a trust-infrastructure and AI-visibility company.
Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt
- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1.900, credited toward
project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim
- We do not guarantee Wikipedia publication. We run a risk-managed,
source-first process and recommend alternative routes when notability
is insufficient.
La prima frase definisce l'entità in una riga. Se un modello legge solo venti token del tuo file, quei token dovrebbero dire cosa sei. Scrivila come una definizione da dizionario, non come uno slogan.
Il puntatore al profilo completo implementa il design a due livelli dello spec. L'indice rimane scorrevole; un agente che vuole tutto segue un link e ottiene ogni servizio, prezzo e risposta FAQ in un unico recupero.
I fatti portano numeri e date. «Founded: 2010» e «93%» sono affermazioni che un modello può recuperare e ripetere con precisione. Gli aggettivi non lo sono.
Le righe di servizio abbinano URL canonici ai prezzi. Quando a un agente viene chiesto quanto costa un audit di notabilità, la risposta e la destinazione si trovano sulla stessa riga.
La sezione «What we do not claim» è la parte che la maggior parte delle aziende non scriverebbe mai. I modelli fanno eco alle loro fonti; se il tuo file fa affermazioni eccessive, la risposta dell'AI fa affermazioni eccessive, e la prima telefonata del potenziale cliente inizia con una correzione. Dichiarare i limiti del proprio servizio è un'assicurazione di accuratezza — la stessa logica di differenza onesta che applichiamo in ogni pagina.
Impegno totale: circa venti minuti, più la rigenerazione quando i fatti cambiano. Il ritorno realistico nel 2026 è la leggibilità da parte degli agenti e un audit Lighthouse pulito, non i ranking. Lo trattiamo come un'assicurazione economica, prezzata di conseguenza.
FAQ
llms.txt aiuta il SEO?
Non ci sono prove che lo faccia. Le linee guida per la Ricerca di Google di maggio 2026 non utilizzano il file, e nessun motore di ricerca ha annunciato di leggerlo per il ranking o per le AI Overviews. Se l'obiettivo sono le citazioni nella ricerca AI, il lavoro rimane convenzionale: HTML crawlabile, dati strutturati e fonti terze autorevoli su di te.
ChatGPT leggerà davvero il mio llms.txt?
Raramente, in base alle prove attuali. Le analisi che abbracciano centinaia di milioni di eventi bot mostrano GPTBot e i suoi simili che recuperano HTML e ignorano in gran parte /llms.txt. I consumatori a breve termine del file sono i browser agentivi e gli strumenti di codice — più Lighthouse, il cui audit segnala dove il team Chrome di Google pensa che questo stia andando.
Una piccola azienda dovrebbe preoccuparsene?
Costa circa venti minuti e non cambia nulla che tu possa misurare oggi, quindi trattalo come un'assicurazione opzionale e a basso costo. Saltarlo è ragionevole; farlo correttamente è economico. Se ne pubblichi uno, mantienilo accurato e rigenera quando i fatti cambiano — un file obsoleto che dichiara erroneamente i tuoi prezzi è peggio che non averne nessuno.
Dovrei bloccare i crawler AI mentre decido?
Prima controlla se lo stai già facendo. Se il tuo dominio si è unito a Cloudflare dopo il 1° luglio 2025, i crawler AI potrebbero essere bloccati per impostazione predefinita senza che nessuno nella tua azienda abbia deciso nulla. Qualunque sia la tua posizione, rendila una decisione piuttosto che un'impostazione ereditata.
llms.txt è il livello più economico e meno consequenziale della leggibilità AI. I livelli consequenziali sono se le fonti di cui i sistemi AI si fidano — Wikipedia, Wikidata, le piattaforme di conoscenza — ti descrivono accuratamente, e se esiste un registro leggibile dalla macchina della tua azienda. Quello stack è ciò che costruiamo: vedi il LLM Hub per l'architettura completa, o inizia aprendo il nostro llms.txt accanto a quello del tuo dominio. Se il tuo restituisce un 404, ora sai esattamente cosa ti sta costando e cosa no.