Das Angebot kommt kalt, meist über LinkedIn: „Wir sorgen dafür, dass ChatGPT Ihre Marke jedem Käufer in Ihrer Kategorie empfiehlt – garantiert." Im Anhang befindet sich eine Grafik, die einen Wettbewerber bei 31 % „AI Share of Voice" (KI-Anteil an der Sichtbarkeit) zeigt, Sie bei 4 % – und ein Retainer von 6.000 € pro Monat. Die Angst ist präzise gesetzt. Käufer sind tatsächlich zu KI-Assistenten gewechselt, und Marken sind dort tatsächlich unsichtbar. Doch der Markt, der die Lösung verkauft, ist kaum zwei Jahre alt, hat keine Standardmetriken und wächst schneller als seine eigene Redlichkeit. Generative Engine Optimization (GEO – die Optimierung für generative KI-Suchmaschinen) ist eine echte Disziplin; ein messbarer Anteil dessen, was unter diesem Namen verkauft wird, ist es nicht.
Zuerst eine Offenlegung: Wir verkaufen selbst KI-Sichtbarkeits-Leistungen – dies ist also ein Audit unserer eigenen Kategorie, lesen Sie unsere Voreingenommenheit entsprechend. Dieser Text soll auch dann nützlich sein, wenn Sie niemanden beauftragen: die Physik, die bestimmte Versprechen strukturell falsch macht; zehn Red Flags (Warnsignale) in den eigenen Worten der Anbieter; faire Preisanker; und die Fragen, die seriöse Anbieter von Kulissen trennen.
TL;DR
- LLM-Antworten (Antworten großer Sprachmodelle) sind probabilistisch und von der Modellversion abhängig. Ein Anbieter kann die Wahrscheinlichkeit erhöhen, dass Sie erscheinen; niemand kann eine Platzierung fixieren. Guarantee-Sprache (Garantieversprechen) ist das lauteste Warnsignal der Kategorie.
- Führen Sie den 5-Fragen-Schnelltest beim Verkaufsgespräch durch: Prompt-Set, Baseline-zu-Delta-Nachweis, was Sie tatsächlich kaufen, der Modell-Update-Plan und warum nicht ein 99-€-Tool stattdessen.
- Faire 2026-Anker: produktisierte Audits rund um 900–1.500 €, vollständige Agentur-Audits bis 7.500 $, Boutique-Retainer 3.000–8.000 € pro Monat – zahlbar nur gegen im SOW (Statement of Work – Leistungsbeschreibung) genannte Liefergegenstände.
- „AI Share of Voice" ohne veröffentlichtes Prompt-Set, Stichprobenzahlen und Varianz ist Dekoration, keine Messung.
- Seriöses GEO ist überwiegend unspektakuläre Quellenarbeit – Entities (Entitäten/Wissensgraph-Einträge), strukturierte Daten, Zitierflächen wie Wikipedia – kein KI-generierter Content in Masse.
Warum dieser Markt über Nacht Quacksalber anzieht
Drei Bedingungen trafen gleichzeitig ein, und jede begünstigt den Verkäufer.
Keine Standardmetriken. Jeder Anbieter berechnet „AI Share of Voice" aus seinem eigenen Prompt-Panel, sodass Zahlen weder über Anbieter hinweg vergleichbar noch von Ihnen prüfbar sind.
Ein unsichtbarer Mechanismus. Niemand außerhalb der Modelllabore kann vollständig erklären, warum ein Assistent in einer bestimmten Antwort eine Marke nannte und eine andere überging. Wenn der Käufer den Mechanismus nicht verifizieren kann, füllt Verkaufstext das Vakuum.
Verängstigte Budgets. Der organische Traffic sinkt, der Vorstand fragt, was ChatGPT über das Unternehmen sagt, und „nichts tun" fühlt sich riskanter an als „etwas unterschreiben". Angst komprimiert die Due Diligence.
Das Ergebnis ist Goldrausch-Ökonomie: Kritische Berichte verzeichnen ein GEO-Startup mit einer Bewertung über 100 Millionen Dollar vor seinem ersten Geburtstag (Webbiquity). Ein Teil davon ist echtes Kategorienwachstum. Der Rest ist das, was passiert, wenn die Nachfrage die Fähigkeit des Käufers übersteigt, die Lieferung zu verifizieren.
Die Physik: Warum ein garantiertes KI-Ranking strukturell falsch ist
Sie müssen einem Anbieter nicht vertrauen, was möglich ist. Das System selbst setzt die Grenzen.
Antworten werden gesampelt, nicht aus einem Ranking abgerufen. Ein Modell generiert jede Antwort probabilistisch: Derselbe Prompt, am selben Tag, in zwei sauberen Sitzungen, kann Marken in unterschiedlicher Reihenfolge nennen. Es gibt keinen Index mit Slots, also gibt es keinen Slot, den jemand verkaufen kann. Quellenarbeit verändert die Wahrscheinlichkeitsverteilung – wie häufig Sie bei vielen Anfragen erscheinen – nie eine fixe Position.
Modellversionen mischen alles neu. Jede Modellveröffentlichung verändert Trainingsdaten, Abrufverhalten und Quellen-Gewichtung. Eine Marke, die unter einer Version Antworten dominierte, kann unter der nächsten zurückfallen – ohne eigenes Zutun. Selbst die Plattformen tauschen Marktanteile: G2's Käufer-Research ergab, dass ChatGPTs Anteil unter B2B-Software-Käufern, die KI nutzen, von 89 % auf 63 % in einem Jahr fiel, während Claude von 1,4 % auf 18,5 % stieg (G2 via PRNewswire). „Auf KI ranken" ist keine einzige Rangliste; es sind mehrere – und alle bewegen sich.
Was legitime Arbeit bewirkt, ist den Boden unter dieser Volatilität anzuheben: mehr unabhängige Quellen, die ein Modell zitieren kann; konsistente Entity-Daten, auf die es sich stützen kann; Präsenz auf den Flächen, aus denen es abruft. Das erhöht die Erwähnungswahrscheinlichkeit messbar und dauerhaft. Es kann keine Platzierung fixieren. Jeder Anbieter, der Determinismus verspricht, versteht das System entweder nicht oder hofft, dass Sie es nicht tun.
Der 5-Fragen-Schnelltest
Stellen Sie alle fünf beim ersten Gespräch. Jede braucht eine Minute, und zusammen filtern sie den Großteil des Marktes.
- „Welches Prompt-Set, welche Modelle, wie gesampelt?" Ein echter Anbieter übergibt Ihnen eine schriftliche Prompt-Liste, nennt Modellversionen und gibt Läufe pro Prompt an. Ein unserioser sagt: „Unser proprietäres Tracking deckt alles ab."
- „Zeigen Sie mir Baseline-zu-Delta bei einem früheren Kunden." Bestanden: ein anonymisiertes Vorher/Nachher auf demselben eingefrorenen Prompt-Set, inklusive Varianz, mit einigen Prompts, die sich nicht bewegten. Nicht bestanden: eine Logo-Wand und „+340 % KI-Sichtbarkeit" ohne Nenner.
- „Welcher Teil davon ist Content-, PR- oder Entity-Arbeit – was kaufe ich tatsächlich?" GEO ist ein Bündel bestehender Disziplinen, ausgerichtet auf maschinenlesbare Flächen. Ein ehrlicher Anbieter zerlegt das Bündel. Ein unehrlicher sagt, der Algorithmus erledige die Arbeit.
- „Was passiert mit meinen Ergebnissen, wenn das nächste GPT erscheint?" Die einzig ehrliche Antwort lautet sinngemäß: Antworten werden neu gemischt, wir erstellen eine neue Baseline, und die dauerhafte Schicht sind Ihre Quellen und Entity-Daten. Jede Variante von „unsere Ergebnisse bleiben über Modell-Updates stabil" scheitert an der Physik oben.
- „Warum kann ich dasselbe nicht mit einem 99-€-Tool und meinem Content-Team erreichen?" Manchmal können Sie es, und ein seriöser Anbieter wird das sagen. Wer keinen Mehrwert über Messung hinaus artikulieren kann, verkauft Ihnen das Dashboard zu Retainer-Preisen.
Die 10 Red Flags in den eigenen Worten der Anbieter
1. Die Guarantee (Garantie). „Wir garantieren, dass ChatGPT Sie innerhalb von 90 Tagen empfiehlt." Probabilistische Systeme bieten keine Garantien; Menschen, die Ihre Unterschrift wollen, tun es. Dieser eine Satz sollte das Gespräch beenden.
2. Der proprietäre Algorithmus. „Unser proprietärer KI-Ranking-Algorithmus hat decodiert, wie ChatGPT Marken rankt." Niemand außerhalb der Labs hat Modell-Interna decodiert, und es gibt kein stabiles „Ranking" zu decodieren. Was Anbieter tatsächlich haben, ist ein Prompt-Panel und ein Scraper – nützlich, aber keine geheime Physik.
3. Der Einreichungsschalter. „Wir reichen Ihre Marke direkt bei OpenAI, Google und Anthropic ein." Einen solchen Schalter gibt es nicht. Es existiert kein Formular, über das eine Marke in zukünftige Antworten eingetragen werden kann. Diese Behauptung ist keine Übertreibung; sie ist ein erfundener Mechanismus.
4. llms.txt als vierstelliger Posten. „KI-Crawler-Konfigurationsdatei – 1.200 €." Die Datei ist reines Markdown, braucht etwa zwanzig Minuten, gewährt nichts, und keine Engine behandelt sie als Ranking-Signal. Eine zu veröffentlichen ist sinnvoll – wir publizieren unsere eigene – aber vierstellige Beträge dafür sind Arbitrage auf Ihrer Unkenntnis.
5. Die Share-of-Voice-Grafik ohne Methodik. „Sie liegen bei 4 %; Ihr Wettbewerber bei 31 %." Fragen Sie: Welche Prompts, wie viele Läufe, welche Modelle, wann gesampelt. Wenn die Vorverkaufs-Grafik das nicht beantworten kann, werden die Nachverkaufs-Berichte es auch nicht – die Folie wurde gebaut, um zu alarmieren, nicht um zu messen.
6. Ergebnisse innerhalb eines Modellzyklus. „Sie sehen Bewegung innerhalb von 30 Tagen, vor Ihrem nächsten Board-Meeting." Quellenveränderungen propagieren durch Crawls, Retrieval-Indizes und Retraining über Wochen bis Monate. Alles, was sich in Tagen „bewegt", ist Retrieval-Rauschen oder kreative Messung.
7. Keine Baseline vor Arbeitsbeginn. „Wir beginnen sofort mit der Optimierung und senden monatliche Sichtbarkeitsberichte." Ein Anbieter, der nie eine eingefrorene Baseline erfasst, kann niemals ein Delta beweisen – was für genau eine Partei im Vertrag bequem ist.
8. Der SOW, der nichts benennt. „Laufende Generative Engine Optimization – 6.000 €/Monat." Wenn die Liefergegenstand-Zeile keine Substantive enthält – kein Prompt-Set, keine Quellenliste, keine Entity-Arbeit, keine Nachmessungskadenz – kaufen Sie ein Abonnement auf Atmosphäre.
9. Alles, überall, ein Preis. „Wir optimieren für alle KIs." Jede Engine stützt sich auf einen anderen Quellen-Mix, und das Verhalten unterscheidet sich je nach Sprache und Markt. Alle Engines gleichzeitig zu versprechen, ohne Priorisierung, bedeutet, keine davon richtig zu messen.
10. Content-Volumen als GEO umgelabelt. „30 KI-optimierte Artikel pro Monat." Engines belohnen zitierfähige Autorität, nicht Durchsatz; massenproduzierten KI-Content diskontieren Plattformen genau jetzt lernen. Volumen produziert auch nichts, was eine andere Quelle je zitieren würde – das ist das eigentliche Spiel.
Faire Preisanker für 2026
Preise in diesem Markt variieren um zwei Größenordnungen für ähnlich klingende Versprechen – veröffentlichte GEO-Retainer reichen von rund 200 € pro Monat am Freelancer-Ende bis 25.000 $ pro Monat am Enterprise-Ende (Citable). Anker, die dem entsprechen, was die Arbeit tatsächlich kostet:
| Engagement | Fairer 2026-Bereich | Was enthalten sein muss | Die Abzock-Version |
|---|---|---|---|
| Produktisiertes KI-Sichtbarkeits-Audit | 900–1.500 € | Festes Prompt-Set, Multi-Modell-Baseline, Zitierquellen-Map, priorisierte Aufgabenliste | Vorlagen-PDF mit Scores, aber ohne Prompt-Liste, verkauft ab 3.000 € |
| Agentur-GEO-Audit | 1.500–3.000 $ fokussiert; 5.000–7.500 $ vollständig (Demand Local) | All das plus Entity- und Strukturierte-Daten-Review, Wettbewerber-Zitieranalyse | Ein umetikettiertes SEO-Audit – gleicher Crawl, neues Akronym, doppelter Preis |
| Boutique-Retainer | 3.000–8.000 €/Monat (Citable) | Benannte monatliche Liefergegenstände: Zitierquellen-Aufbau, Entity-Arbeit, Nachmessung gegen Baseline | „Laufende Optimierung", Liefergegenstände unbenannt, Ergebnisse nicht falsifizierbar |
| Monitoring-Tooling | 29–500 €/Monat Self-Service | Feste Prompts, geplante Läufe, Multi-Engine-Abdeckung | Dasselbe Tool, im Retainer 10× weiterverkauft als „proprietäres Tracking" |
Einzelne technische Fixes (llms.txt, Schema) | Stunden Arbeit, gebündelt in ein Audit | Implementierung plus Verifikation | Vierstellige Einzelposten für Zwanzig-Minuten-Dateien |
Zur Kalibrierung: Wir verkaufen Festpreis-Pakete in dieser Kategorie für 700 €, 1.500 € und 3.500 €, einmalig – hier nicht als Pitch, sondern als Offenlegung. Diese Tabelle ist der Maßstab, an dem wir gemessen werden möchten.
Was ein legitimer Retainer im SOW benennt
Wenn ein monatliches Engagement überhaupt gerechtfertigt ist, liest sich das Statement of Work wie ein Engineering-Dokument, nicht wie ein Manifest. Fünf Liefergegenstände sollten namentlich erscheinen:
- Prompt-Set-Definition. Die eingefrorene Liste käuferrelevanter Prompts – Kategorie, Vergleich, Marke, kritisch – schriftlich vereinbart, bevor Arbeit beginnt.
- Baseline-Erfassung. Multi-Modell-, Multi-Lauf-Messung Ihres aktuellen Stands, archiviert, damit keine Partei später die Spielregeln ändern kann.
- Entity- und Strukturierte-Daten-Arbeit. Konkrete Datensätze, die erstellt oder korrigiert werden sollen – Wissensgraph-Einträge, Schema-Markup, konsistente Organisationsdaten über Flächen hinweg.
- Zitierquellen-Aufbau. Welche unabhängigen, zitierfähigen Quellen am Ende existieren werden, die zu Beginn nicht existierten. Das ist die langsamste Zeile und die wichtigste.
- Nachmessungskadenz. Gleiche Prompts, gleiche Methode, angegebenes Intervall, Varianz berichtet – einschließlich der Prompts, die sich verschlechtert haben.
Ein Anbieter, der sich dagegen sperrt, das schriftlich festzuhalten, sagt Ihnen, dass das Lieferobjekt die Rechnung ist.
Der Metriken-Trick: Wie Share of Voice gefälscht wird
Drei Manöver produzieren eine beeindruckende Grafik aus dem Nichts, und alle drei sind unsichtbar, bis Sie fragen.
Gezielt ausgewählte Prompts. 200 Prompts messen, die 20 berichten, die sich verbessert haben. Die Lösung: Das Prompt-Set ist im SOW eingefroren, und jeder Bericht deckt alle ab.
Einzellauf-Sampling. Eine Antwort pro Prompt pro Monat ist ein Münzwurf, der als Trend präsentiert wird. Derselbe Prompt kann Sie mittags einschließen und um eins übergehen. Die Lösung: Mehrere Läufe pro Prompt, mit berichteter Erwähnungsrate über alle Läufe.
Keine Konfidenzintervalle. Eine Bewegung von 22 % auf 26 % bei einem kleinen Prompt-Panel ist statistisch nichts, rendert aber als befriedigender Aufwärtsbalken. Die Lösung: Share-of-Voice-Berichte müssen Laufzahlen und Varianz enthalten – und kennzeichnen, welche Veränderungen im Rauschbereich liegen.
Das alles erfordert keinen Statistik-Abschluss, um es zu kontrollieren. Es erfordert einmal zu fragen, im Gespräch: „Wie viele Läufe pro Prompt, und was ist die Rauschgrenze?" Stille ist eine Antwort.
Wo Wikipedia und Wikidata ehrlich passen
Ziehen Sie das Akronym weg, und GEO ist überwiegend ein Quellen-Problem: Modelle zitieren, was sie vertrauen, und sie vertrauen einer kurzen Liste von Flächen. Zitierstudien finden Wikipedia wiederholt an der Spitze – 5W's Citation Source Index maß sie bei 13,15 % der US-ChatGPT-Zitate, die größte Einzelquelle, mit Reddit an zweiter Stelle bei 11,97 % (5WPR). Wikidata spielt die stillere Rolle und speist die Wissensgraphen, mit denen Engines verankern, wer Sie sind und welche Aussagen über Sie kanonisch sind. Wie die Enzyklopädie-Schicht in KI-Antworten fließt, ist eine eigene Disziplin – siehe Wikipedia AEO.
Das gilt in beide Richtungen, und die Symmetrie ist der Test. Ein GEO-Anbieter, der nie Sourcing, Zitierquellen oder Entity-Arbeit erwähnt, verkauft Content-Spam mit einem neuen Akronym. Und der Wikipedia-Dienstleistungsmarkt hat sein eigenes langjähriges Betrugs-Ökosystem – die Warnsignale dort klingen wie dieser Artikel: Garantien, Geister-Agenturen, nicht verifizierbare Fallstudien. Gleicher Trick, andere Fläche.
Selbst bauen vs. kaufen: Wann ein Tool plus Ihr Team gewinnt
Ein Retainer ist der falsche Kauf, wenn Ihr Prompt-Universum klein ist (unter rund 100 käuferrelevanten Anfragen), Sie in einer Sprache operieren, Engines bereits korrekte Fakten über Sie angeben und Ihr Content-Team Erkenntnisse umsetzen kann. Dann deckt ein Monitoring-Tool ab 29 € pro Monat – oder die kostenlose 20-Prompt-Baseline aus unserem Monitoring-Tools-Leitfaden – plus eigene Autoren den Großteil dessen ab, was ein mittlerer Retainer verspricht.
Externe Hilfe rechtfertigt ihr Honorar in drei Situationen: Multi-Markt-Messung und Quellenarbeit in Sprachen, die Sie nicht intern besetzen; Entity- und Zitierquellen-Arbeit, die Ihr Team nicht in-house leisten kann (Wissensgraph-Korrekturen, enzyklopädisches Sourcing); und aktive Halluzinationen über Ihr Unternehmen, die an der Quelle behoben werden müssen. Alle drei sind Projekte mit Ende – weshalb Festpreis-Scope dieser Arbeit meist besser passt als ein offener Retainer.
Das einseitige Anbieter-Verhörblatt
Lesen Sie dies beim nächsten Verkaufsgespräch durch. Jedes „Nein" ist ein Datenpunkt; drei sind ein Urteil.
- Schriftliches Prompt-Set und benannte Modellversionen unaufgefordert angeboten?
- Baseline-Erfassung vor jeglicher Optimierungsarbeit gescoped?
- Früherer Kunde: Baseline-zu-Delta auf einem eingefrorenen Prompt-Set gezeigt?
- Läufe-pro-Prompt und Varianz im Reporting enthalten?
- SOW benennt Entity-Arbeit und Zitierquellen, nicht „laufende Optimierung"?
- Plan für die nächste Modellveröffentlichung angegeben?
- Null Guarantee-Sprache irgendwo im Angebot?
- Preis innerhalb der obigen Ankertabelle für den Engagement-Typ?
- Können sie erklären, was Sie stattdessen intern tun könnten?
- Werden Rückerstattungs- oder Ausstiegsbedingungen schriftlich festgehalten?
Download: PDFder Anbieter-Scorecard (PDF) – wir haben ihn für Wikipedia-Anbieter erstellt, aber die Zeilen sind anbieteragnostisch: Ersetzen Sie „Live-Artikel-URLs" durch „Prompt-Set-Methodik", und er bewertet GEO-Anbieter genauso gut nebeneinander.
Wenn Sie die Retainer-Frage lieber ganz überspringen möchten – so verkaufen wir bewusst: KI-Sichtbarkeits-Pakete haben festen Scope und sind einmalig – Starter 700 €, Standard 1.500 €, Enterprise 3.500 € – jeder Liefergegenstand benannt, bevor Sie zahlen, Ergebnisse als messbare Wahrscheinlichkeiten formuliert, denn mehr kann niemand verkaufen, der ehrlich ist. Bringen Sie den Scorecard auch zu unserem Gespräch mit.