Die Debatte um llms.txt hat sich in zwei Lager gespalten, und beide verkaufen Gewissheit. Das eine Lager nennt sie "das neue robots.txt" und die nächste SEO-Landnahme: Eine Datei hinzufügen, KI-Traffic gewinnen. Das andere zitiert Google und erklärt die ganze Idee für gescheitert, bevor sie überhaupt begonnen hat. Beide Lesarten übersehen die Daten — und Mitte 2026 sind die Daten gut genug, um den größten Teil des Streits beizulegen.
Hier die ehrliche Version vorab. Server-Logs zeigen, dass KI-Crawler (automatisierte Programme, die das Web systematisch durchsuchen) die Datei kaum abrufen. Googles Search-Leitfaden verwendet sie nicht. Und dennoch prüft Googles eigenes Chrome-Team inzwischen darauf, die agentische Browsing-Ebene, der sie dient, ist real — und der Aufwand, eine solche Datei zu erstellen, beträgt ungefähr zwanzig Minuten. Wir veröffentlichen unsere eigene — /llms.txt und /llms-full.txt — und weiter unten in diesem Leitfaden kommentieren wir sie Zeile für Zeile, damit Sie sehen können, wie eine funktionierende Datei aussieht und warum wir uns die Mühe gemacht haben.
Was folgt: die Spezifikation, der Google-Widerspruch vom Mai 2026, den niemand auflöst, was 515 Millionen Bot-Events über die Verbreitung aussagen, der vollständige Crawler-Berechtigungsstapel, die Crawl-to-Click-Ökonomie hinter der Blockier-Debatte und eine Entscheidungsmatrix nach Unternehmenstyp.
Was llms.txt ist — und was nicht
llms.txt ist eine reine Markdown-Datei im Stammverzeichnis Ihrer Domain, die Sprachmodellen einen kuratierten Index Ihrer Website gibt: wer Sie sind, welche Seiten maßgeblich sind, wo die verbindlichen Antworten zu finden sind. Jeremy Howard, Mitgründer von Answer.AI und fast.ai, schlug die Spezifikation am 3. September 2024 vor. Der Ansatz ist pragmatisch statt visionär: HTML, das für Menschen gebaut wurde, ist rauschig — Navigation, Skripte, Cookie-Banner — und die Kontextfenster der Modelle sind endlich. Also übergeben Sie der Maschine eine saubere Karte, anstatt sie eine selbst ausgraben zu lassen.
Die Spezifikation hat zwei Ebenen. /llms.txt ist der kurze Index: eine Zusammenfassung plus kuratierte Links. /llms-full.txt ist die maximalistische Variante: der vollständige Inhalt in einem einzigen maschinenlesbaren Dokument, damit ein Agent (ein KI-System, das selbstständig Aufgaben im Web ausführt) in einer einzigen Anfrage alles über Sie laden kann.
Mindestens genauso wichtig ist, was die Datei nicht ist. Sie ist nicht robots.txt — sie erlaubt nichts und verbietet nichts, und es gibt keinen Durchsetzungsmechanismus dahinter. Sie ist kein Ranking-Signal; kein Suchmaschinenanbieter hat erklärt, die Datei für das Ranking zu lesen. Und sie ist keine Zugangskontrolle: Ein Crawler, der sie ignoriert, verliert nichts. robots.txt sagt: "Hier ist, was Sie abrufen dürfen." llms.txt sagt: "Hier ist, was es wert ist zu lesen." Das sind unterschiedliche Aufgaben — und wer sie verwechselt, produziert die meisten schlechten Schlussfolgerungen.
Der Google-Widerspruch vom Mai 2026
Innerhalb von zehn Tagen im Mai 2026 hat Google zwei Schritte unternommen, die in entgegengesetzte Richtungen zeigen — weshalb beide Lager Google mit ernstem Gesicht zitieren können.
Schritt eins: Am 5. Mai 2026 fügte Google ein llms.txt-Audit zu Lighthouse (Googles Tool zur Bewertung der Website-Qualität) hinzu, in einer neuen Kategorie für agentisches Browsen. Das Audit markiert Ihre Website als fehlerhaft, wenn der Abruf von /llms.txt einen Server-Fehler zurückgibt. Die Dokumentation nennt die Begründung klar: "Without this file, agents may spend more time crawling the site to understand its high-level structure and primary content" — zu Deutsch: Ohne diese Datei müssen Agenten mehr Zeit damit verbringen, die Website zu durchsuchen, um ihre übergeordnete Struktur und ihren Hauptinhalt zu verstehen (ppc.land).
Schritt zwei: Am 15. Mai 2026 veröffentlichte Google seinen offiziellen Leitfaden zur Optimierung von Websites für generative KI-Funktionen in der Suche — AI Overviews und AI Mode. llms.txt fehlt darin. Der Leitfaden bekräftigt, was Googles Search-Vertreter seit dem Erscheinen der Spezifikation gesagt haben: Standard-technisches SEO ist das, was für KI-Funktionen in der Suche zählt, und die Datei ist dafür nicht erforderlich.
Die Auflösung: Es gibt keinen Widerspruch — es gibt zwei Ebenen. Google Search, einschließlich AI Overviews, rankt und zitiert Inhalte aus seinem bestehenden HTML-Index; llms.txt spielt dort heute keine Rolle, und Google war darüber konsistent. Agentisches Browsen — ein KI-Agent, der Ihre Website besucht, um eine Aufgabe im Auftrag eines Nutzers zu erledigen — ist ein anderes Konsummuster mit anderen Anforderungen, und das ist die Ebene, die das Chrome-Team zu prüfen begann. Wer Ihnen sagt "Google verlangt es" oder "Google hat es beerdigt", zitiert eine Ebene und ignoriert die andere.
Was Server-Logs zeigen: die Adoptionsrealität
Die Adoptionsgeschichte hat zwei Hälften: Immer mehr Publisher liefern die Datei aus — und Crawler ignorieren sie größtenteils.
Eine aggregierte Analyse von 515 Millionen Bot-Events ergab, dass Anfragen für /llms.txt einen vernachlässigbaren Anteil am KI-Crawler-Traffic ausmachen — ein Rundungsfehler gegenüber dem Volumen der Seitenabrufe (aeo.press). GPTBot, ClaudeBot und PerplexityBot rufen überwiegend HTML-Seiten ab, so wie Search-Crawler es immer getan haben. Die Pipelines, die Trainingskorpora und Retrieval-Indizes speisen, sind auf HTML im Web-Maßstab ausgelegt; eine parallele Markdown-Datei ist eine Optimierung, die diese Pipelines noch nicht übernommen haben.
Auf der Publisher-Seite hatten 7,4 Prozent der Fortune-500-Unternehmen — 37 von 500 — bis zum 31. März 2026 eine llms.txt ausgeliefert (ppc.land). Entwicklerdokumentations-Websites haben sie weit schneller übernommen, weil Coding-Agenten der eine Verbraucher sind, der diese Dateien heute nachweislich liest.
Das ehrliche Fazit aus den Logs: Das Ausliefern von llms.txt verändert 2026 nicht messbar, wie große KI-Crawler Ihre Website lesen. Wer es als KI-Traffic-Hebel verkauft, verkauft der Evidenz voraus.
Der KI-Crawler-Berechtigungsstapel 2026
llms.txt wird isoliert diskutiert, ist aber eines von fünf Instrumenten in einem Stapel, der kontrolliert — oder zu kontrollieren versucht —, was KI-Systeme mit Ihren Inhalten machen.
| Ebene | Was sie kontrolliert | Wer durchsetzt | Compliance-Realität | Unser Urteil |
|---|---|---|---|---|
| robots.txt-Direktiven (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) | Ob deklarierte Crawler Ihre Seiten abrufen dürfen; Google-Extended regelt das Gemini-Training, nicht die Suche | Niemand — ein freiwilliges Protokoll | Große Labs honorieren ihre deklarierten Bots; Streitigkeiten existieren — Cloudflare beschuldigte Perplexity 2025, undeklarierten Crawlern zu nutzen, um Sperren zu umgehen | Ihr tatsächlicher An/Aus-Schalter — bewusst konfigurieren |
| Content Signals Policy (contentsignals.org) | Erklärt, wie abgerufene Inhalte verwendet werden dürfen: search, ai-input, ai-train | Technisch niemand; formuliert die Signale als Rechtsvorbehalt | Zu neu, um zu messen; verbreitet sich über von Cloudflare verwaltete robots.txt | Kostet nichts; spricht eher Anwälte an als Bots |
| Cloudflare-Standardsperre (Nieman Lab) | Sperrt bekannte KI-Crawler am Netzwerkrand für neue Domains, seit 1. Juli 2025 | Cloudflare — gesperrte Anfragen erreichen Ihren Server nie | Tatsächlich durchgesetzt bei einem großen Teil des Webs | Die einzige Ebene mit Wirkung; bewusst umschalten, nicht per Vererbung |
| Pay-per-Crawl | Berechnet KI-Crawlern pro Anfrage, anstatt sie vollständig zu sperren | Cloudflares Marktplatz, in der Beta-Phase | Frühes Stadium; hängt davon ab, dass Labs bereit sind zu zahlen | Relevant für große Publisher, nicht für B2B-Websites |
| llms.txt / llms-full.txt | Nichts — eine empfehlende Leseliste für Modelle und Agenten | Niemand | Vernachlässigbare Abrufquoten in Server-Logs; Lighthouse prüft jetzt auf ihre Präsenz | Günstige Absicherung für das agentische Web; null SEO-Effekt heute |
Beachten Sie das Muster. Die Ebenen, über die diskutiert wird — llms.txt, Content Signals — sind empfehlend. Die Ebene, die das Crawler-Verhalten über Nacht verändert hat, ist Cloudflares Edge — und das ist die, die die meisten Website-Betreiber nie bewusst konfiguriert haben.
Crawl-to-Click-Ökonomie: Was "Inhalte an KI geben" einbringt
Der Block-by-default-Instinkt beruht auf einer wirtschaftlichen Tatsache — die wir klar benennen. Cloudflare Radars Daten aus Q1 2026 beziffern das Crawl-to-Refer-Verhältnis — abgerufene Seiten pro weitergeleiteten menschlichen Klick — auf ungefähr 1.276:1 für OpenAIs GPTBot und ungefähr 23.951:1 für Anthropics ClaudeBot (Cloudflare). Traditionelles Such-Crawling zahlte Websites um Größenordnungen bessere Verhältnisse zurück. KI-Systeme konsumieren Inhalte im industriellen Maßstab und liefern fast keinen direkten Traffic zurück.
Wenn Ihr Unternehmen Seitenaufrufe monetarisiert, ist diese Asymmetrie nahezu existenziell — und der Publisher-Aufstand sowie Cloudflares Pay-per-Crawl-Experiment folgen daraus logisch.
Aber das Verhältnis misst Klicks, und Klicks sind nicht die einzige Rendite. Der Crawl, der nie einen Besucher schickt, bestimmt dennoch, ob das Modell weiß, dass Sie existieren, Sie korrekt beschreibt und Ihren Namen nennt, wenn ein Käufer nach einer Shortlist fragt. Für ein B2B-Unternehmen ist die KI-Antwort oft der Touchpoint: Ein Interessent fragt ChatGPT, Anbieter zu vergleichen, erhält eine aus dem, was Crawler lesen konnten, synthetisierte Antwort — und Ihre Analyse registriert die Begegnung nie. Wir haben diese Verschiebung in AEO vs GEO vs SEO entpackt — das Ziel verschiebt sich davon, den Klick zu gewinnen, hin zu der abgerufenen, korrekt zitierten Antwort zu sein.
Blockieren oder öffnen? Eine Entscheidungsmatrix nach Unternehmenstyp
Es gibt keine universelle Antwort, weil die Crawl-to-Click-Mathematik je nach Zweck Ihrer Inhalte unterschiedlich wirkt.
| Unternehmenstyp | Umsatzlogik | KI-Crawler | llms.txt | Begründung |
|---|---|---|---|---|
| Publisher / Medien | Seitenaufrufe und Abonnements sind das Produkt | Sperren oder über Pay-per-Crawl verhandeln | Weglassen | Bei 1.276:1 und schlechter ist offener Zugang ein Subventionieren fremder Produkte |
| B2B-Marke / Dienstleistungen | Die Website ist ein Vertriebsasset; bekannt sein schlägt besucht werden | Öffnen | Ausliefern | Sie wollen abrufbar sein, wenn Käufer KI nach Anbietern fragen |
| E-Commerce | Produktdaten treiben Entdeckung; Agenten unterstützen Käufe zunehmend | Öffnen; Infrastrukturkosten im Blick | Ausliefern, mit Produkt- und Richtlinien-URLs | Nicht präsent zu sein, wenn ein Agent Optionen vergleicht, bedeutet entgangenen Umsatz |
| Content-Lizenzierung | Der Inhalt selbst ist das zu bepreisende Asset | Sperren, dann verhandeln | Weglassen | Knappheit ist der Verhandlungshebel |
Für die meisten B2B-Unternehmen — unsere Kunden und wir selbst — lautet die Antwort: öffnen. Ihre Marketing-Website existiert, damit der Markt weiß, was Sie tun. Ein KI-System, das sie liest und das einem Interessenten korrekt wiedergibt, erledigt die Aufgabe der Website kostenlos. GPTBot zu sperren, um Inhalte zu schützen, deren einziger Zweck es ist, bekannt zu sein, kehrt die Strategie um. Und während sich das Einkaufen in Richtung Business-to-Agent (B2A, Geschäftsinteraktionen, bei denen Software Aufgaben übernimmt, die früher Menschen erledigten) verschiebt, potenziert sich die Abrufbarkeit: Das schützenswerte Asset ist Genauigkeit, nicht Zugang. Diese Genauigkeit über KI-Plattformen hinweg zu erhalten, ist der Kern von AI-Visibility-Arbeit.
Die Konsequenz des sich schließenden Webs: Gesperrte Websites machen Wikipedia zu Ihrem Stellvertreter
Nun der Zweitrundeneffekt, den fast niemand einpreist. Cloudflare sperrt KI-Crawler für neue Domains standardmäßig. Publisher sperren oder begrenzen den Zugang. Pay-per-Crawl bepreist, was früher kostenlos war. Das offene Web, wie ein KI-Crawler es sieht, schrumpft.
Modelle brauchen weiterhin Grundierungsquellen (verlässliche Referenzdaten), also konzentriert sich der Abruf auf die hochautoritativen Korpora, die per Design offen bleiben: Wikipedia, Wikidata, öffentliche Register, akademische Repositories. Wikipedias freie Lizenz erlaubt Weiterverwendung, ihr Inhalt ist strukturiert und zitiert, und sie sitzt hinter keiner Crawl-Schranke. Jede Website, die sich schließt, macht die Quellen, die offen bleiben, im Wissen und in den Aussagen von KI-Systemen schwerer.
Die Konsequenz für eine Marke ist direkt. Wenn Ihre eigene Website für Crawler unsichtbar ist — ob absichtlich oder durch die Standardeinstellungen Ihres CDN — werden Ihr Wikipedia-Artikel, Ihre Wikidata-Entität und andere offene Quellen zum faktischen Datensatz, den KI über Sie liest. Das ist der strategische Zusammenhang, den die llms.txt-Debatten verpassen — und deshalb behandeln wir enzyklopädische Präsenz als Infrastruktur statt als Eitelkeit: Es ist der Teil Ihrer Aufzeichnung, der unabhängig davon, wie sich der Berechtigungsstapel entwickelt, abrufbar bleibt. Die Mechanik wird in Wikipedia AEO und unserem Wikidata- und Knowledge-Graph-Service behandelt; das breitere taktische Bild findet sich in Wikipedia-SEO-Taktiken für 2026.
Unsere eigene llms.txt, kommentiert
Wir veröffentlichen beide Ebenen — wikibusines.net/llms.txt und wikibusines.net/llms-full.txt — regeneriert aus den kanonischen Daten der Website, und Sie können sie live lesen. Hier sind echte Zeilen aus der Kurzversion, mit der Begründung hinter jeder Entscheidung:
# WikiBusines — LLM-readable summary
WikiBusines is a trust-infrastructure and AI-visibility company.
Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt
- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1,900, credited toward
project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim
- We do not guarantee Wikipedia publication. We run a risk-managed,
source-first process and recommend alternative routes when notability
is insufficient.
Der erste Satz definiert die Entität in einer Zeile. Wenn ein Modell nur zwanzig Token Ihrer Datei liest, sollten diese Token sagen, was Sie sind. Schreiben Sie es wie eine Wörterbuchdefinition, nicht wie einen Slogan.
Der Full-Profile-Pointer setzt das zweistufige Design der Spezifikation um. Der Index bleibt überschaubar; ein Agent, der alles möchte, folgt einem Link und erhält jeden Service, Preis und jede FAQ-Antwort in einem einzigen Abruf.
Fakten tragen Zahlen und Daten. "Founded: 2010" und "93%" sind Angaben, die ein Modell abrufen und präzise wiedergeben kann. Adjektive nicht.
Service-Zeilen paaren kanonische URLs mit Preisen. Wenn ein Agent gefragt wird, was ein Notability Audit (Prüfung der Wikipedia-Relevanzkriterien) kostet, liegen Antwort und Ziel in derselben Zeile.
Der Abschnitt "What we do not claim" ist der Teil, den die meisten Unternehmen nie schreiben würden. Modelle spiegeln ihre Quellen; wenn Ihre Datei zu viel verspricht, verspricht auch die KI-Antwort zu viel — und das erste Gespräch mit dem Interessenten beginnt mit einer Korrektur. Die Grenzen des eigenen Services zu benennen ist Genauigkeitsversicherung — dieselbe Logik ehrlicher Differenzierung, die wir auf jeder Seite anwenden.
Gesamtaufwand: ungefähr zwanzig Minuten, plus Regenerierung, wenn sich Fakten ändern. Die realistische Rendite in 2026 ist Agent-Lesbarkeit und ein sauberes Lighthouse-Audit, keine Rankings. Wir behandeln sie als günstige Versicherung — entsprechend bepreist.
FAQ
Hilft llms.txt beim SEO?
Es gibt keine Belege dafür. Googles Such-Leitfaden vom Mai 2026 verwendet die Datei nicht, und kein Suchmaschinenanbieter hat angekündigt, sie für das Ranking oder für AI Overviews zu lesen. Wenn KI-Such-Zitierungen das Ziel sind, bleibt die Arbeit konventionell: crawlbares HTML, strukturierte Daten und maßgebliche Drittquellen über Sie.
Wird ChatGPT meine llms.txt tatsächlich lesen?
Nach aktuellem Stand: selten. Analysen über Hunderte Millionen Bot-Events zeigen, dass GPTBot und seine Pendants HTML abrufen und /llms.txt weitgehend ignorieren. Die kurzfristigen Verbraucher der Datei sind agentische Browser und Coding-Tools — sowie Lighthouse, dessen Audit signalisiert, wohin Googles Chrome-Team dies für entwickelt hält.
Sollte ein kleines Unternehmen sich die Mühe machen?
Es kostet ungefähr zwanzig Minuten und ändert heute nichts Messbares — behandeln Sie es also als optionale, kostengünstige Versicherung. Es zu überspringen ist vernünftig; es ordentlich zu machen ist günstig. Wenn Sie eine erstellen, halten Sie sie korrekt und regenerieren Sie sie, wenn sich Fakten ändern — eine veraltete Datei, die Ihre Preise falsch angibt, ist schlimmer als keine Datei.
Sollte ich KI-Crawler sperren, während ich entscheide?
Prüfen Sie zuerst, ob Sie es bereits tun. Wenn Ihre Domain nach dem 1. Juli 2025 zu Cloudflare gekommen ist, könnten KI-Crawler standardmäßig gesperrt sein, ohne dass jemand in Ihrem Unternehmen eine Entscheidung getroffen hat. Was auch immer Ihre Position ist — machen Sie daraus eine bewusste Entscheidung statt eine geerbte Einstellung.
llms.txt ist die günstigste und am wenigsten folgenreiche Ebene der KI-Lesbarkeit. Die folgenreichen Ebenen sind, ob die Quellen, denen KI-Systeme vertrauen — Wikipedia, Wikidata, die Wissensplattformen — Sie korrekt beschreiben, und ob überhaupt ein maschinenlesbarer Datensatz Ihres Unternehmens existiert. Diesen Stapel bauen wir: Sehen Sie sich den LLM Hub für die vollständige Architektur an, oder beginnen Sie damit, unsere llms.txt neben der Ihrer eigenen Domain zu öffnen. Wenn Ihre einen 404-Fehler zurückgibt, wissen Sie jetzt genau, was das kostet — und was nicht.