Il pitch arriva a freddo, di solito su LinkedIn: "Faremo sì che ChatGPT raccomandi il vostro brand a ogni acquirente nella vostra categoria — garantito." Allegato c'è un grafico che mostra un concorrente al 31% di "AI share of voice" (quota di visibilità AI), voi al 4%, e un contratto da €6.000 al mese. La paura è calibrata con precisione. Gli acquirenti sono davvero migrati verso gli assistenti AI, e i brand sono davvero invisibili là dentro. Ma il mercato che vende la soluzione ha a malapena due anni, non ha metriche standard e cresce più velocemente della propria onestà. La generative engine optimization (GEO, ovvero l'ottimizzazione per motori di ricerca generativi) è una disciplina reale; una quota misurabile di ciò che viene venduto sotto quel nome non lo è.
Prima una premessa: vendiamo anche noi servizi di visibilità AI, quindi questo è un audit della nostra stessa categoria — leggete il nostro bias di conseguenza. È scritto per essere utile anche se non assumerete mai nessuno: la fisica che rende alcune promesse strutturalmente false, dieci segnali d'allarme nelle parole stesse dei vendor, ancore di prezzo eque e le domande che separano gli operatori veri dai costumi di scena.
TL;DR
- Le risposte degli LLM (Large Language Model, modelli linguistici di grandi dimensioni) sono probabilistiche e dipendenti dalla versione del modello. Un vendor può aumentare le probabilità che appriate; nessuno può garantire un posizionamento fisso. Il linguaggio della garanzia è il segnale d'allarme più rumoroso dell'intera categoria.
- Eseguite il test in 5 domande alla prima call: set di prompt, prova baseline-to-delta, cosa state comprando esattamente, il piano per gli aggiornamenti del modello, e perché non usare invece uno strumento da €99.
- Ancore eque per il 2026: audit produttizzati intorno a €900–1.500, audit d'agenzia completi fino a $7.500, retainer boutique €3.000–8.000 al mese — pagati solo contro deliverable nominati nel SOW (Statement of Work, documento che definisce le prestazioni da erogare).
- "AI share of voice" senza un set di prompt pubblicato, conteggi di campionamento e varianza è decorazione, non misurazione.
- Il GEO onesto è per lo più un lavoro di sourcing poco glamour — entità, dati strutturati, superfici di citazione come Wikipedia — non contenuti AI generati in volume.
Perché questo mercato ha prodotto snake oil dall'oggi al domani
Tre condizioni si sono presentate contemporaneamente, e ciascuna favorisce il venditore.
Nessuna metrica standard. Ogni vendor calcola l'"AI share of voice" dal proprio panel di prompt, quindi i numeri non sono né comparabili tra vendor né verificabili da voi.
Un meccanismo invisibile. Nessuno al di fuori dei laboratori che sviluppano i modelli può spiegare completamente perché un assistente ha nominato un brand e ne ha saltato un altro in una determinata risposta. Quando l'acquirente non riesce a verificare il meccanismo, il testo commerciale riempie il vuoto.
Budget spaventati. Il traffico organico è in calo, il consiglio di amministrazione chiede cosa dice ChatGPT dell'azienda, e "non fare nulla" sembra più rischioso di "firmare qualcosa". La paura comprime la due diligence.
Il risultato è un'economia da corsa all'oro: reportage scettici segnalano una startup GEO valutata oltre $100 milioni prima del primo compleanno (Webbiquity). Una parte di ciò è vera crescita di categoria. Il resto è quello che succede quando la domanda supera la capacità dell'acquirente di verificare la consegna.
La fisica: perché un posizionamento AI garantito è strutturalmente falso
Non avete bisogno di fidarvi della parola di un vendor su ciò che è possibile. Il sistema stesso fissa i limiti.
Le risposte sono campionate, non recuperate da una classifica. Un modello genera ogni risposta in modo probabilistico: lo stesso prompt, nello stesso giorno, in due sessioni pulite, può nominare brand diversi in ordine diverso. Non esiste un indice con posizioni, quindi non esiste una posizione che qualcuno possa vendervi. Il source work modifica la distribuzione di probabilità — con quale frequenza appiate attraverso molte interrogazioni — mai una posizione fissa.
Le versioni del modello rimescolano tutto. Ogni rilascio di modello cambia i dati di addestramento, il comportamento di retrieval e il peso assegnato alle fonti. Un brand che dominava le risposte con una versione può perdere terreno con la successiva, senza alcuna azione propria. Anche le piattaforme stesse si scambiano quote: la ricerca G2 sugli acquirenti ha rilevato che la quota di ChatGPT tra gli acquirenti di software B2B che usano l'AI è scesa dall'89% al 63% in un anno, mentre Claude è salita dall'1,4% al 18,5% (G2 via PRNewswire). "Posizionarsi sull'AI" non è un solo tabellone segnapunti; sono diversi, e tutti si muovono.
Il lavoro legittimo fa è alzare il pavimento sotto quella volatilità: più fonti indipendenti che un modello possa citare, dati di entità coerenti su cui anchorarsi, presenza sulle superfici da cui recupera. Questo aumenta in modo misurabile e duraturo la probabilità di menzione. Non può bloccare il posizionamento. Qualsiasi vendor che promette determinismo o fraintende il sistema o spera che lo facciate voi.
Il test in 5 domande
Fate tutte e cinque alla prima call. Ognuna richiede un minuto, e insieme filtrano la maggior parte del mercato.
- "Quale set di prompt, quali modelli, come campionati?" Un operatore vero vi consegna una lista scritta di prompt, nomina le versioni del modello e indica le esecuzioni per prompt. Uno falso dice "il nostro tracking proprietario copre tutto".
- "Mostratemi baseline-to-delta (dall'inizio al risultato) su un cliente passato." Promosso: un prima/dopo anonimizzato sullo stesso set di prompt congelato, varianza inclusa, con alcuni prompt che non si sono mossi. Bocciato: una gallery di loghi e "+340% di visibilità AI" senza denominatore.
- "Quale parte di questo è content, PR o entity work — cosa sto comprando esattamente?" Il GEO è un bundle di discipline esistenti orientato verso superfici leggibili dai modelli. Un vendor onesto scompone il bundle. Uno disonesto dice che l'algoritmo fa il lavoro.
- "Cosa succede ai miei risultati quando esce il prossimo GPT?" L'unica risposta onesta è una variazione di: le risposte si rimescolano, ricalcoliamo la baseline, e il livello duraturo sono le vostre fonti e i dati di entità. Qualsiasi variante di "i nostri risultati persistono tra gli aggiornamenti del modello" fallisce la fisica di cui sopra.
- "Perché non posso ottenere lo stesso con uno strumento da €99 più il mio team di contenuti?" A volte si può, e un vendor serio lo dirà. Chi non riesce ad articolare un valore superiore alla misurazione vi sta vendendo una dashboard a prezzo di retainer.
I 10 segnali d'allarme, nelle parole stesse dei vendor
1. La garanzia. "Garantiamo che ChatGPT vi raccomanderà entro 90 giorni." I sistemi probabilistici non emettono garanzie; le persone che vogliono la vostra firma sì. Questa singola frase dovrebbe chiudere la call.
2. L'algoritmo proprietario. "Il nostro algoritmo proprietario di ranking AI ha decodificato come ChatGPT classifica i brand." Nessuno al di fuori dei laboratori ha decodificato i meccanismi interni dei modelli, e non esiste un "ranking" stabile da decodificare. Quello che i vendor hanno effettivamente è un panel di prompt e uno scraper — utile, ma non fisica segreta.
3. Il desk di submission. "Inviamo il vostro brand direttamente a OpenAI, Google e Anthropic." Non esiste tale desk. Non c'è nessun modulo dove un brand viene registrato per apparire nelle risposte future. Questa affermazione non è un'esagerazione; è un meccanismo inventato.
4. llms.txt come voce a quattro cifre. "File di configurazione per crawler AI — €1.200." Il file è plain markdown, richiede circa venti minuti, non garantisce nulla e nessun motore lo tratta come segnale di ranking. Pubblicarlo ha senso — pubblichiamo il nostro — ma quattro cifre per farlo è arbitraggio sulla vostra familiarità con il tema.
5. Il grafico di share of voice senza metodologia. "Siete al 4%; il vostro concorrente è al 31%." Chiedete quali prompt, quante esecuzioni, quali modelli, campionati quando. Se il grafico pre-vendita non può rispondere, nemmeno i report post-vendita lo faranno — il deck è stato costruito per allarmare, non per misurare.
6. Risultati entro un ciclo di modello. "Vedrete movimento entro 30 giorni, prima della prossima riunione del consiglio." Le modifiche alle fonti si propagano attraverso crawl, indici di retrieval e re-addestramento nell'arco di settimane o mesi. Qualsiasi cosa che "si muova" in giorni è rumore di retrieval o misurazione creativa.
7. Nessuna baseline prima dell'inizio del lavoro. "Inizieremo subito l'ottimizzazione e invieremo report mensili sulla visibilità." Un vendor che non cattura mai una baseline congelata non può mai dimostrare un delta — il che è conveniente esattamente per una delle parti del contratto.
8. Il SOW che non nomina nulla. "Generative engine optimization continuativa — €6.000/mese." Se la riga dei deliverable non ha sostantivi — nessun set di prompt, nessuna lista di fonti, nessun entity work, nessuna cadenza di ri-misurazione — state comprando un abbonamento a vibes.
9. Tutto, ovunque, un prezzo unico. "Ottimizziamo per tutti gli AI." Ogni motore si basa su un mix diverso di fonti, e il comportamento differisce per lingua e mercato. Promettere ogni motore contemporaneamente, senza prioritizzazione, significa non misurare nessuno di essi correttamente.
10. Volume di contenuti ribattezzato GEO. "30 articoli AI-ottimizzati al mese." I motori premiano l'autorevolezza citabile, non il throughput; i contenuti AI prodotti in massa sono esattamente ciò che le piattaforme stanno imparando a scontare. Il volume non produce nemmeno nulla che un'altra fonte vorrebbe mai citare — che è il vero gioco.
Ancore di prezzo eque per il 2026
I prezzi in questo mercato si estendono su due ordini di grandezza per promesse dal suono simile — i retainer GEO pubblicati vanno da circa €200 al mese per i freelance fino a $25.000 al mese per l'enterprise (Citable). Ancore che corrispondono al costo reale del lavoro:
| Tipologia | Range onesto 2026 | Cosa deve essere incluso | La versione truffaldina |
|---|---|---|---|
| Audit di visibilità AI prodottizzato | €900–1.500 | Set di prompt fisso, baseline multi-modello, mappa delle fonti di citazione, lista prioritizzata delle correzioni | PDF con template e punteggi ma senza lista di prompt, venduto a €3.000+ |
| Audit GEO da agenzia | $1.500–3.000 mirato; $5.000–7.500 completo (Demand Local) | Tutto quanto sopra più revisione di entità e dati strutturati, analisi delle citazioni dei concorrenti | Un audit SEO rietichettato — stesso crawl, nuovo acronimo, prezzo raddoppiato |
| Retainer boutique | €3.000–8.000/mese (Citable) | Deliverable mensili nominati: costruzione di fonti di citazione, entity work, ri-misurazione contro la baseline | "Ottimizzazione continuativa", deliverable non nominati, risultati non falsificabili |
| Strumenti di monitoring | €29–500/mese self-serve | Prompt fissi, esecuzioni programmate, copertura multi-motore | Lo stesso strumento rivenduto all'interno di un retainer a 10× come "tracking proprietario" |
| Fix tecnici singoli (llms.txt, schema) | Ore di lavoro, raggruppate in un audit | Implementazione più verifica | Voci singole a quattro cifre per file che richiedono venti minuti |
Per calibrazione: vendiamo pacchetti a portata fissa in questa categoria a €700, €1.500 e €3.500, una tantum — citati qui non come pitch ma come disclosure. Questa tabella è lo standard con cui ci aspettiamo di essere giudicati.
Cosa nomina un retainer legittimo nel SOW
Se un impegno mensile è giustificato, il statement of work si legge come un documento ingegneristico, non un manifesto. Cinque deliverable dovrebbero apparire per nome:
- Definizione del set di prompt. La lista congelata di prompt rilevanti per gli acquirenti — categoria, confronto, brand, avverso — concordata per iscritto prima dell'inizio di qualsiasi lavoro.
- Cattura della baseline. Misurazione multi-modello, multi-esecuzione di dove vi trovate oggi, archiviata in modo che nessuna delle parti possa spostare i paletti in seguito.
- Entity work e dati strutturati. Record specifici da creare o correggere — voci nel knowledge graph, markup schema, dati organizzativi coerenti su tutte le superfici.
- Costruzione di fonti di citazione. Quali fonti indipendenti e citabili esisteranno alla fine che non esistevano all'inizio. Questa è la riga più lenta e quella che conta di più.
- Cadenza di ri-misurazione. Stessi prompt, stesso metodo, intervallo dichiarato, varianza riportata — inclusi i prompt che sono peggiorati.
Un vendor che si oppone a mettere per iscritto questi elementi vi sta dicendo che il deliverable è la fattura.
La truffa delle metriche: come si falsifica la share of voice
Tre mosse producono un grafico impressionante dal niente, e tutte e tre sono invisibili a meno che non chiediate.
Prompt selezionati a mano. Misurate 200 prompt, riportate i 20 che sono migliorati. La correzione: il set di prompt è congelato nel SOW, e ogni report li copre tutti.
Campionamento a esecuzione singola. Una risposta per prompt per mese è un lancio di moneta presentato come tendenza. Lo stesso prompt può includervi a mezzogiorno e saltarvi all'una. La correzione: più esecuzioni per prompt, con il tasso di menzione riportato su tutte le esecuzioni.
Nessun intervallo di confidenza. Un movimento dal 22% al 26% su un piccolo panel di prompt è statisticamente irrilevante, ma si renderizza come una soddisfacente barra ascendente. La correzione: i report di share of voice devono includere i conteggi delle esecuzioni e la varianza — e segnalare quali variazioni rientrano nel rumore.
Nulla di questo richiede una laurea in statistica per essere controllato. Richiede di chiedere, una volta, durante la call: "Quante esecuzioni per prompt, e qual è il livello di rumore?" Il silenzio è una risposta.
Dove si inseriscono onestamente Wikipedia e Wikidata
Togliete l'acronimo e il GEO è principalmente un problema di sourcing: i modelli citano ciò di cui si fidano, e si fidano di un elenco breve di superfici. Gli studi sulle citazioni continuano a trovare Wikipedia in cima — il Citation Source Index di 5W's l'ha misurata al 13,15% delle citazioni di ChatGPT negli USA, la singola fonte più grande, con Reddit al secondo posto all'11,97% (5WPR). Wikidata svolge il ruolo più silenzioso, alimentando i knowledge graph che i motori usano per verificare chi siete e quali affermazioni su di voi sono canoniche. Come lo strato enciclopedico fluisce nelle risposte AI è una disciplina a sé — vedete Wikipedia AEO.
Questo taglia in entrambe le direzioni, e la simmetria è il test. Un vendor GEO che non menziona mai sourcing, superfici di citazione o entity work sta vendendo spam di contenuti con un nuovo acronimo. E il mercato dei servizi Wikipedia ha il proprio ecosistema di truffe di lunga data — i segnali d'allarme lì rimano con questo articolo: garanzie, agenzie fantasma, case study non verificabili. Stessa truffa, superficie diversa.
Build vs buy: quando uno strumento più il vostro team vince
Un retainer è l'acquisto sbagliato se il vostro universo di prompt è piccolo (sotto circa 100 query rilevanti per gli acquirenti), operate in una sola lingua, i motori dichiarano già fatti corretti su di voi, e il vostro team di contenuti può agire sui risultati. Allora uno strumento di monitoring da €29 al mese — o la baseline gratuita a 20 prompt della nostra guida agli strumenti di monitoring — più i vostri writer copre la maggior parte di ciò che un retainer di fascia media dichiara.
L'aiuto esterno guadagna il suo compenso in tre situazioni: misurazione multi-mercato e source work in lingue che non presidiate internamente; entity work e lavoro sulle superfici di citazione che il vostro team non può fare in-house (correzioni al knowledge graph, sourcing enciclopedico); e allucinazioni attive sulla vostra azienda che devono essere corrette alla fonte. Tutte e tre sono progetti con una fine — motivo per cui la portata fissa di solito si adatta meglio a questo lavoro rispetto a un retainer a portata aperta.
Il foglio di interrogazione vendor in una pagina
Leggete questo durante la prossima call di vendita. Ogni "no" è un punto dati; tre sono un verdetto.
- Set di prompt scritto e versioni del modello nominate offerte senza sollecitazione?
- Cattura della baseline definita prima di qualsiasi lavoro di ottimizzazione?
- Baseline-to-delta di un cliente passato mostrata su un set di prompt congelato?
- Esecuzioni per prompt e varianza incluse nei report?
- Il SOW nomina entity work e fonti di citazione, non "ottimizzazione continuativa"?
- Piano dichiarato per il prossimo rilascio del modello?
- Zero linguaggio di garanzia in qualsiasi punto della proposta?
- Prezzo nell'ambito della tabella di riferimento sopra per il tipo di impegno?
- Sanno spiegare cosa potreste fare internamente invece?
- Metteranno i termini di rimborso o uscita per iscritto?
Download: PDFil vendor scorecard (PDF) — l'abbiamo costruito per i vendor Wikipedia, ma le righe sono agnostiche rispetto al vendor: sostituite "URL degli articoli live" con "metodologia del set di prompt" e valuta i vendor GEO fianco a fianco altrettanto bene.
Se preferite saltare del tutto la questione del retainer, è deliberatamente il modo in cui vendiamo: i pacchetti di visibilità AI sono a portata fissa e una tantum — Starter €700, Standard €1.500, Enterprise €3.500 — ogni deliverable nominato prima del pagamento, risultati formulati come probabilità misurabili, perché è tutto ciò che chiunque di onesto può vendere in questa categoria. Portate il scorecard anche alla nostra call.