El debate sobre llms.txt se ha dividido en dos bandos, y ambos venden certezas. Un bando lo llama "el nuevo robots.txt" y la próxima conquista del SEO (optimización para motores de búsqueda): añade un archivo, gana tráfico de IA. El otro cita a Google y declara que toda la idea llega muerta de salida. Ambas lecturas omiten los datos — y a mediados de 2026 los datos son suficientemente buenos para zanjar la mayor parte del debate.
Aquí está la versión honesta desde el principio. Los registros del servidor muestran que los rastreadores de IA apenas solicitan el archivo. Las directrices de Búsqueda de Google no lo utilizan. Y sin embargo, el propio equipo de Chrome de Google ahora realiza auditorías del archivo, la capa de navegación agéntica a la que sirve es real, y el coste de publicar uno es de aproximadamente veinte minutos. Nosotros publicamos el nuestro — /llms.txt y /llms-full.txt — y más adelante en esta guía lo anotamos línea por línea, para que puedas ver cómo es un archivo funcional y por qué nos molestamos.
Lo que sigue: la especificación, la contradicción de Google de mayo de 2026 que nadie reconcilia, lo que dicen 515 millones de eventos de bots sobre la adopción, la pila completa de permisos de rastreo, la economía de rastreo a clic que subyace al debate sobre el bloqueo, y una matriz de decisión de bloquear o abrir según el tipo de negocio.
Qué es llms.txt — y qué no es
llms.txt es un archivo en markdown simple ubicado en la raíz de tu dominio que ofrece a los modelos de lenguaje un índice curado de tu sitio: quién eres, qué páginas son canónicas, dónde viven las respuestas autorizadas. Jeremy Howard, cofundador de Answer.AI y fast.ai, propuso la especificación el 3 de septiembre de 2024. La premisa es práctica más que visionaria: el HTML construido para humanos es ruidoso — navegación, scripts, banners de consentimiento — y las ventanas de contexto de los modelos son finitas, así que dale a la máquina un mapa limpio en lugar de obligarla a excavarlo.
La especificación tiene dos niveles. /llms.txt es el índice corto: un resumen más enlaces curados. /llms-full.txt es la variante maximalista: el contenido completo incrustado en un único documento legible por máquinas, para que un agente pueda cargar todo lo que hay sobre ti en una sola solicitud.
Igual de importante es lo que el archivo no es. No es robots.txt — no concede nada ni prohíbe nada, y no existe ningún mecanismo de ejecución detrás de él. No es una señal de clasificación; ningún motor de búsqueda ha dicho que lea el archivo para clasificar. Y no es control de acceso: un rastreador que lo ignora no pierde nada. robots.txt dice "esto es lo que puedes obtener". llms.txt dice "esto es lo que vale la pena leer". Son trabajos diferentes, y confundirlos produce la mayoría de los malos análisis.
La contradicción de Google de mayo de 2026
En un período de diez días en mayo de 2026, Google realizó dos movimientos que apuntan en direcciones opuestas — por eso ambos bandos pueden citar a Google con total convicción.
Movimiento uno: el 5 de mayo de 2026, Google añadió una auditoría de llms.txt a Lighthouse, su herramienta de calidad de sitios, bajo una nueva categoría de navegación agéntica. La auditoría marca tu sitio si la obtención de /llms.txt devuelve un error de servidor, y la documentación expone el fundamento claramente: "Sin este archivo, los agentes pueden pasar más tiempo rastreando el sitio para comprender su estructura de alto nivel y el contenido principal" (ppc.land).
Movimiento dos: el 15 de mayo de 2026, Google publicó sus directrices oficiales sobre cómo optimizar sitios web para las funciones de IA generativa en la Búsqueda — AI Overviews y AI Mode. llms.txt está ausente de ellas. Las directrices reafirman lo que los representantes de Búsqueda de Google han dicho desde que apareció la especificación: el SEO técnico estándar es lo que cuenta para las funciones de IA en la Búsqueda, y el archivo es innecesario para ese propósito.
La reconciliación es que no hay contradicción — hay dos capas. Google Search, incluyendo AI Overviews, clasifica y cita contenido de su índice HTML existente; llms.txt no juega ningún papel allí hoy, y Google ha sido coherente al respecto. La navegación agéntica — un agente de IA que visita tu sitio para completar una tarea en nombre de un usuario — es un patrón de consumo diferente con necesidades distintas, y esa es la capa que el equipo de Chrome empezó a auditar. Quien te diga "Google lo exige" o "Google lo mató" está citando una capa e ignorando la otra.
Lo que muestran los registros del servidor: la realidad de la adopción
La historia de la adopción tiene dos mitades: los editores publican cada vez más el archivo, y los rastreadores en su mayoría lo ignoran.
Un análisis agregado de 515 millones de eventos de bots encontró que las solicitudes de /llms.txt representan una parte insignificante del tráfico de rastreadores de IA — un error de redondeo frente al volumen de obtenciones de páginas (aeo.press). GPTBot, ClaudeBot y PerplexityBot solicitan abrumadoramente páginas HTML, como siempre han hecho los rastreadores de búsqueda. Los flujos que alimentan los corpus de entrenamiento y los índices de recuperación están diseñados para HTML a escala web; un archivo markdown paralelo es una optimización que esos flujos no han adoptado.
En el lado de la publicación, el 7,4 por ciento de las empresas Fortune 500 — 37 de 500 — habían publicado un llms.txt a 31 de marzo de 2026 (ppc.land). Los sitios de documentación para desarrolladores lo adoptaron mucho más rápido, porque los agentes de codificación son el único consumidor que hoy en día demuestra leer estos archivos.
Así que el resumen honesto de los registros es: publicar llms.txt no cambia de manera mensurable cómo los principales rastreadores de IA leen tu sitio en 2026. Quien lo venda como un desbloqueador de tráfico de IA está vendiendo por delante de la evidencia.
La pila de permisos de rastreadores de IA en 2026
llms.txt se debate de forma aislada, pero es un instrumento dentro de una pila de cinco capas que controla — o intenta controlar — lo que los sistemas de IA hacen con tu contenido.
| Capa | Qué controla | Quién lo aplica | Realidad de cumplimiento | Nuestro veredicto |
|---|---|---|---|---|
| Directivas robots.txt (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) | Si los rastreadores declarados pueden obtener tus páginas; Google-Extended rige el entrenamiento de Gemini, no la Búsqueda | Nadie — un protocolo voluntario | Los principales laboratorios respetan sus bots declarados; existen disputas — Cloudflare acusó a Perplexity de usar rastreadores no declarados para evadir bloqueos en 2025 | Tu interruptor real de encendido/apagado — configúralo deliberadamente |
| Content Signals Policy (Política de señales de contenido) (contentsignals.org) | Declara cómo puede usarse el contenido obtenido: búsqueda, entrada de IA, entrenamiento de IA | Nadie técnicamente; enmarca las señales como una reserva de derechos | Demasiado nueva para medir; se está extendiendo a través del robots.txt gestionado por Cloudflare | No cuesta nada; habla más a los abogados que a los bots |
| Bloqueo predeterminado de Cloudflare (Nieman Lab) | Bloquea los rastreadores de IA conocidos en el borde de la red para nuevos dominios, desde el 1 de julio de 2025 | Cloudflare — las solicitudes bloqueadas nunca llegan a tu servidor | Efectivamente aplicado en una gran parte de la web | La única capa con dientes; actívala conscientemente, no por herencia |
| Pago por rastreo | Cobra a los rastreadores de IA por solicitud en lugar de bloquearlos directamente | El marketplace de Cloudflare, en fase beta | En fase inicial; depende de que los laboratorios acepten pagar | Relevante para grandes editores, no para sitios B2B |
| llms.txt / llms-full.txt | Nada — una lista de lectura consultiva para modelos y agentes | Nadie | Tasas de obtención insignificantes en los registros del servidor; Lighthouse ahora audita su presencia | Seguro barato para la web agéntica; cero efecto SEO hoy |
Observa el patrón. Las capas sobre las que la gente debate — llms.txt, Content Signals — son consultivas. La capa que cambió el comportamiento de los rastreadores de la noche a la mañana es el borde de Cloudflare, y es la que la mayoría de los propietarios de sitios nunca configuraron conscientemente.
Economía de rastreo a clic: qué devuelve "dar contenido a la IA"
El instinto de bloqueo predeterminado descansa sobre un hecho económico, así que expongámoslo claramente. Los datos de Cloudflare Radar del primer trimestre de 2026 situaron la ratio de rastreo a referencia — páginas obtenidas por clic humano referido — en aproximadamente 1.276:1 para el GPTBot de OpenAI y aproximadamente 23.951:1 para el ClaudeBot de Anthropic (Cloudflare). El rastreo de búsqueda tradicional recompensaba a los sitios con ratios órdenes de magnitud menores. Los sistemas de IA consumen contenido a escala industrial y devuelven casi ningún tráfico directo.
Si tu negocio monetiza las páginas vistas, esa asimetría es casi existencial, y la revuelta de los editores — junto con el experimento de pago por rastreo de Cloudflare — se deriva lógicamente de ello.
Pero la ratio mide clics, y los clics no son el único retorno. El rastreo que nunca envía un visitante aún determina si el modelo sabe que existes, te describe con precisión y te nombra cuando un comprador pide una lista corta. Para una empresa B2B, la respuesta de la IA a menudo es el punto de contacto: un prospecto le pregunta a ChatGPT que compare proveedores, obtiene una respuesta sintetizada a partir de lo que los rastreadores pudieron leer, y tus análisis nunca registran el encuentro. Analizamos ese cambio en AEO vs GEO vs SEO — el objetivo pasa de ganar el clic a ser la respuesta recuperada y citada con precisión.
¿Bloquear o abrir? Una matriz de decisión por tipo de negocio
No hay una respuesta universal, porque la matemática de rastreo a clic funciona de manera diferente según para qué sirve tu contenido.
| Tipo de negocio | Lógica de ingresos | Rastreadores de IA | llms.txt | Razonamiento |
|---|---|---|---|---|
| Editor / medios de comunicación | Las páginas vistas y suscripciones son el producto | Bloquear o negociar mediante pago por rastreo | Omitir | Con 1.276:1 y peor, el acceso abierto es un subsidio al producto de otro |
| Marca B2B / servicios | El sitio es un activo de ventas; ser conocido supera ser visitado | Abrir | Publicarlo | Quieres ser recuperable cuando los compradores pregunten a la IA por proveedores |
| Comercio electrónico | Los datos de producto impulsan el descubrimiento; los agentes asisten cada vez más en las compras | Abrir; vigilar los costes de infraestructura | Publicarlo, con URLs de productos y políticas | La ausencia en el momento en que un agente compara opciones es ingresos perdidos |
| Licencias de contenido | El contenido en sí es el activo que se está valorando | Bloquear, luego negociar | Omitir | La escasez es el apalancamiento de negociación |
Para la mayoría de las empresas B2B — nuestros clientes, y nosotros mismos — la respuesta es abrir. Tu sitio de marketing existe para que el mercado sepa lo que haces. Un sistema de IA que lo lee y lo repite con precisión a un prospecto está haciendo el trabajo del sitio de forma gratuita. Bloquear GPTBot para proteger contenido cuyo único propósito es ser conocido invierte la estrategia. Y a medida que las compras se desplazan hacia interacciones business-to-agent (B2A), donde el software completa tareas que antes hacía un humano, la recuperabilidad se multiplica: el activo que vale la pena proteger es la precisión, no el acceso. Mantener esa precisión en todas las plataformas de IA es el núcleo del trabajo de visibilidad en IA.
La consecuencia de la web que se cierra: los sitios bloqueados convierten a Wikipedia en tu representante
Ahora el efecto de segundo orden que casi nadie valora. Cloudflare bloquea los rastreadores de IA por defecto para los nuevos dominios. Los editores bloquean o limitan el acceso. El pago por rastreo pone precio a lo que antes era gratuito. La web abierta, tal como la ve un rastreador de IA, se está reduciendo.
Los modelos aún necesitan fuentes de fundamentación, por lo que la recuperación se concentra en los corpus de alta autoridad que permanecen abiertos por diseño: Wikipedia, Wikidata, registros públicos, repositorios académicos. La licencia libre de Wikipedia permite la reutilización, su contenido está estructurado y citado, y no está detrás de ningún muro de rastreo. Cada sitio que se cierra hace que las fuentes que permanecen abiertas pesen más en lo que los sistemas de IA saben y dicen.
La consecuencia para una marca es directa. Si tu propio sitio está oscuro para los rastreadores — por elección o por los valores predeterminados de tu CDN — entonces tu artículo de Wikipedia, tu entidad en Wikidata y las otras fuentes abiertas se convierten en el registro de facto que la IA lee sobre ti. Ese es el vínculo estratégico que los debates sobre llms.txt pasan por alto, y es por eso que tratamos la presencia enciclopédica como infraestructura en lugar de vanidad: es la parte de tu registro que sigue siendo recuperable sin importar cómo evolucione la pila de permisos. La mecánica se cubre en Wikipedia AEO y en nuestro servicio de Wikidata y gráfico de conocimiento; el panorama táctico más amplio está en tácticas de Wikipedia SEO para 2026.
Nuestro propio llms.txt, anotado
Publicamos ambos niveles — wikibusines.net/llms.txt y wikibusines.net/llms-full.txt — regenerados a partir de los datos canónicos del sitio, y puedes leerlos en vivo. Aquí hay líneas reales del archivo corto, con el razonamiento detrás de cada elección:
# WikiBusines — LLM-readable summary
WikiBusines is a trust-infrastructure and AI-visibility company.
Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt
- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1.900, credited toward
project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim
- We do not guarantee Wikipedia publication. We run a risk-managed,
source-first process and recommend alternative routes when notability
is insufficient.
La primera oración define la entidad en una línea. Si un modelo lee solo veinte tokens de tu archivo, esos tokens deben decir lo que eres. Escríbelo como una definición de diccionario, no como un eslogan.
El puntero al perfil completo implementa el diseño de dos niveles de la especificación. El índice se mantiene escaneable; un agente que quiere todo sigue un enlace y obtiene cada servicio, precio y respuesta de FAQ en una sola solicitud.
Los datos llevan números y fechas. "Founded: 2010" y "93%" son afirmaciones que un modelo puede recuperar y repetir con precisión. Los adjetivos no lo son.
Las líneas de servicio emparejan URLs canónicas con precios. Cuando a un agente se le pregunta cuánto cuesta una auditoría de notabilidad, la respuesta y el destino están en la misma línea.
La sección "What we do not claim" (Lo que no afirmamos) es la parte que la mayoría de las empresas nunca escribiría. Los modelos hacen eco de sus fuentes; si tu archivo exagera afirmaciones, la respuesta de la IA exagera afirmaciones, y la primera llamada del prospecto comienza con una corrección. Establecer los límites de tu propio servicio es un seguro de precisión — la misma lógica de diferencia honesta que aplicamos en cada página.
Esfuerzo total: unos veinte minutos, más la regeneración cuando cambien los datos. El retorno realista en 2026 es la legibilidad por agentes y una auditoría limpia de Lighthouse, no clasificaciones. Lo tratamos como un seguro barato, valorado en consecuencia.
FAQ
¿Ayuda llms.txt al SEO?
No hay evidencia de que lo haga. Las directrices de Búsqueda de Google de mayo de 2026 no utilizan el archivo, y ningún motor de búsqueda ha anunciado que lo lea para clasificar o para AI Overviews. Si el objetivo son las citas de búsqueda con IA, el trabajo sigue siendo convencional: HTML rastreable, datos estructurados y fuentes de terceros autorizadas sobre ti.
¿Leerá ChatGPT realmente mi llms.txt?
Rara vez, según la evidencia actual. Los análisis que abarcan cientos de millones de eventos de bots muestran que GPTBot y sus pares obtienen HTML e ignoran en gran medida /llms.txt. Los consumidores a corto plazo del archivo son los navegadores agénticos y las herramientas de codificación — más Lighthouse, cuya auditoría señala hacia dónde cree que se dirige esto el equipo de Chrome de Google.
¿Vale la pena que una empresa pequeña se moleste?
Cuesta unos veinte minutos y no cambia nada que puedas medir hoy, así que trátalo como un seguro opcional y de bajo coste. Omitirlo es razonable; hacerlo correctamente es barato. Si publicas uno, mantenlo preciso y regeneralo cuando cambien los datos — un archivo desactualizado que indica mal tus precios es peor que ningún archivo.
¿Debo bloquear los rastreadores de IA mientras decido?
Primero verifica si ya lo estás haciendo. Si tu dominio se unió a Cloudflare después del 1 de julio de 2025, los rastreadores de IA pueden estar bloqueados por defecto sin que nadie en tu empresa haya decidido nada. Sea cual sea tu posición, conviértela en una decisión en lugar de una configuración heredada.
llms.txt es la capa más barata y menos consecuente de la legibilidad para IA. Las capas consecuentes son si las fuentes en las que confían los sistemas de IA — Wikipedia, Wikidata, las plataformas de conocimiento — te describen con precisión, y si existe en absoluto un registro legible por máquinas de tu empresa. Esa es la pila que construimos: consulta el LLM Hub para la arquitectura completa, o empieza abriendo nuestro llms.txt junto al de tu propio dominio. Si el tuyo devuelve un 404, ahora sabes exactamente lo que eso te está costando y lo que no.