הוויכוח סביב llms.txt התפצל לשני מחנות, ושניהם מוכרים ודאות. מחנה אחד קורא לו "robots.txt החדש" וההזדמנות הבאה ב-SEO (אופטימיזציה למנועי חיפוש): הוסיפו קובץ אחד וזכו בתנועת בינה מלאכותית. המחנה האחר מצטט את Google ומכריז שכל הרעיון מת בלידתו. שתי הקריאות מדלגות על הנתונים — ובאמצע 2026 הנתונים טובים מספיק כדי להכריע את רוב הוויכוח.
הנה הגרסה הכנה מראש. יומני שרת מראים שסורקי בינה מלאכותית בקושי מבקשים את הקובץ. הנחיות החיפוש של Google אינן משתמשות בו. ובכל זאת, צוות Chrome של Google כבר מבצע ביקורת על נוכחותו, שכבת הגלישה הסוכנתית (agentic browsing) שהוא משרת היא אמיתית, ועלות פרסומו עומדת על כעשרים דקות בערך. אנחנו מפרסמים את שלנו — /llms.txt ו-/llms-full.txt — ובהמשך מדריך זה נוסיף הערות על כל שורה, כדי שתוכלו לראות כיצד נראה קובץ עובד ומדוע טרחנו.
מה שיבוא: המפרט, הסתירה של Google במאי 2026 שאף אחד לא מיישב, מה שאומרים 515 מיליון אירועי בוט על אימוץ, מחסנית ההרשאות המלאה לסורק, כלכלת הסריקה-לחיצה שמאחורי ויכוח החסימה, ומטריצת ההחלטה "חסום או פתח" לפי סוג עסק.
מהו llms.txt — ומה הוא אינו
llms.txt הוא קובץ Markdown פשוט בשורש הדומיין שלכם, שמעניק למודלי שפה אינדקס מאורגן של האתר: מי אתם, אילו דפים קנוניים, היכן נמצאות התשובות הסמכותיות. Jeremy Howard, מייסד שותף של Answer.AI ו-fast.ai, הציע את המפרט ב-3 בספטמבר 2024. הנחת היסוד פרקטית ולא חזיונית: HTML שנבנה עבור בני אדם רועש — ניווט, סקריפטים, באנרים של הסכמה — וחלונות ההקשר של המודלים מוגבלים, אז תנו למכונה מפה נקייה במקום לאלץ אותה לחפור אחת בעצמה.
למפרט שני רמות. /llms.txt הוא האינדקס הקצר: סיכום ולינקים מאורגנים. /llms-full.txt הוא הגרסה המורחבת המקסימליסטית: התוכן המלא מוטמע במסמך אחד קריא-מכונה, כך שסוכן יכול לטעון את כל מה שיש לדעת עליכם בבקשה אחת.
לא פחות חשוב הוא מה הקובץ אינו. הוא אינו robots.txt — הוא לא מעניק דבר ולא אוסר דבר, ואין מאחוריו מנגנון אכיפה. הוא אינו אות דירוג; שום מנוע חיפוש לא הכריז שהוא קורא את הקובץ לצורך דירוג. והוא אינו בקרת גישה: סורק שמתעלם ממנו לא מפסיד דבר. robots.txt אומר "הנה מה שמותר לך לאחזר." llms.txt אומר "הנה מה שכדאי לקרוא." אלו עבודות שונות, וערבוב ביניהן מייצר את רוב הפרשנויות הגרועות.
הסתירה של Google במאי 2026
תוך עשרה ימים במאי 2026 עשה Google שני מהלכים שמצביעים לכיוונים מנוגדים — ולכן שני המחנות יכולים לצטט את Google בפנים ישרות.
מהלך ראשון: ב-5 במאי 2026 הוסיף Google ביקורת llms.txt ל-Lighthouse, כלי איכות האתרים שלו, תחת קטגוריית גלישה סוכנתית (agentic browsing) חדשה. הביקורת מסמנת את האתר שלכם אם אחזור /llms.txt מחזיר שגיאת שרת, והתיעוד מציין את הנימוק בפירוש: "ללא קובץ זה, סוכנים עלולים לבלות יותר זמן בסריקת האתר כדי להבין את המבנה הכולל שלו ואת התוכן הראשי שלו" (ppc.land).
מהלך שני: ב-15 במאי 2026 פרסם Google את ההנחיות הרשמיות שלו לאופטימיזציה של אתרים לתכונות בינה מלאכותית גנרטיבית בחיפוש — AI Overviews ו-AI Mode. llms.txt נעדר ממנה. ההנחיות מאשרות מחדש את מה שנציגי חיפוש Google אמרו מאז שהמפרט הופיע: SEO טכני סטנדרטי הוא מה שחשוב לתכונות בינה מלאכותית בחיפוש, והקובץ אינו נחוץ לצורך כך.
הפיוס הוא שאין סתירה — יש שתי שכבות. חיפוש Google, כולל AI Overviews, מדרג ומצטט תוכן מאינדקס ה-HTML הקיים שלו; ל-llms.txt אין תפקיד שם כיום, ו-Google היה עקבי בנושא זה. גלישה סוכנתית — סוכן בינה מלאכותית המבקר באתר שלכם כדי לבצע משימה בשם משתמש — היא דפוס צריכה שונה עם צרכים שונים, וזו השכבה שצוות Chrome החל לבקר. כל מי שאומר לכם "Google מחייב זאת" או "Google הרג זאת" מצטט שכבה אחת ומתעלם מהשנייה.
מה יומני השרת מראים: מציאות האימוץ
לסיפור האימוץ שני חצאים: מפרסמים יותר ויותר שולחים את הקובץ, וסורקים ברובם מתעלמים ממנו.
ניתוח מצרפי של 515 מיליון אירועי בוט מצא שבקשות ל-/llms.txt מהוות נתח זניח מתנועת סורקי בינה מלאכותית — שגיאת עיגול לעומת נפח אחזורי הדפים (aeo.press). GPTBot, ClaudeBot ו-PerplexityBot מבקשים בעיקר דפי HTML, כפי שסורקי חיפוש תמיד עשו. הצינורות שמזינים מאגרי אימון ואינדקסי אחזור מהונדסים עבור HTML בקנה מידה של רשת; קובץ Markdown מקביל הוא אופטימיזציה שאותם צינורות לא אימצו.
בצד הפרסום, 7.4 אחוז מחברות Fortune 500 — 37 מתוך 500 — שלחו llms.txt עד ה-31 במרץ 2026 (ppc.land). אתרי תיעוד מפתחים אימצו אותו הרבה יותר מהר, מפני שסוכני תכנות הם הצרכן היחיד שניתן להוכיח כיום שקורא קבצים אלה.
כך שהסיכום הכנה של היומנים: שליחת llms.txt אינה משנה באופן מדיד כיצד סורקי בינה מלאכותית גדולים קוראים את האתר שלכם ב-2026. כל מי שמוכר אותו כמפתח תנועת בינה מלאכותית מוכר לפני הראיות.
מחסנית הרשאות סורק הבינה המלאכותית ב-2026
llms.txt נדון בבידוד, אך הוא כלי אחד במחסנית של חמש שכבות השולטות — או מנסות לשלוט — במה שמערכות בינה מלאכותית עושות עם התוכן שלכם.
| שכבה | מה היא שולטת | מי אוכף | מציאות הציות | הפסיקה שלנו |
|---|---|---|---|---|
| הוראות robots.txt (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) | האם לסורקים מוצהרים מותר לאחזר את דפיכם; Google-Extended שולט באימון Gemini, לא בחיפוש | אף אחד — פרוטוקול וולונטרי | מעבדות גדולות מכבדות את הסורקים שהכריזו עליהם; קיימות מחלוקות — Cloudflare האשים את Perplexity בשימוש בסורקים לא מוצהרים כדי לחמוק מחסימות ב-2025 | מתג ההפעלה/כיבוי הממשי שלכם — הגדירו אותו במודעות |
| מדיניות אותות תוכן (contentsignals.org) | מכריזה כיצד ניתן להשתמש בתוכן שנאחזר: חיפוש, ai-input, ai-train | אף אחד מבחינה טכנית; מסגרת האותות כשמירת זכויות | חדש מכדי למדוד; מתפשט דרך robots.txt המנוהל על ידי Cloudflare | לא עולה כלום; מדבר לעורכי דין יותר מאשר לבוטים |
| חסימת ברירת מחדל של Cloudflare (Nieman Lab) | חוסם סורקי בינה מלאכותית מוכרים בשוליים הרשתיים עבור דומיינים חדשים, מאז 1 ביולי 2025 | Cloudflare — בקשות חסומות לעולם לא מגיעות לשרת שלכם | מאכף בפועל על חלק גדול מהרשת | השכבה היחידה עם שיניים; הפכו אותה במודעות, לא בירושה |
| תשלום לפי סריקה | גובה מסורקי בינה מלאכותית תשלום לכל בקשה במקום לחסום לחלוטין | שוק Cloudflare, בגרסת בטא | שלב מוקדם; תלוי בהסכמת מעבדות לשלם | רלוונטי למפרסמים גדולים, לא לאתרי B2B |
| llms.txt / llms-full.txt | כלום — רשימת קריאה ייעוצית למודלים ולסוכנים | אף אחד | שיעורי אחזור זניחים ביומני שרת; Lighthouse מבצע ביקורת על נוכחותו כעת | ביטוח זול לרשת הסוכנתית; אפס השפעת SEO היום |
שימו לב לדפוס. השכבות שאנשים מתווכחים עליהן — llms.txt, אותות תוכן — הן ייעוציות. השכבה ששינתה את התנהגות הסורק בין לילה היא השוליים הרשתיים של Cloudflare, והיא זו שרוב בעלי אתרים מעולם לא הגדירו במודעות.
כלכלת הסריקה-לחיצה: מה "מתן תוכן לבינה מלאכותית" מחזיר
יצר החסימה כברירת מחדל נשען על עובדה כלכלית, אז נאמר אותה בבירור. נתוני Cloudflare Radar לרבעון הראשון של 2026 קבעו את יחס הסריקה-להפניה — דפים שנאחזרו לכל לחיצה אנושית שהופנתה — על כ-1,276:1 עבור GPTBot של OpenAI ועל כ-23,951:1 עבור ClaudeBot של Anthropic (Cloudflare). סריקת חיפוש מסורתית שיפתה אתרים ביחסים נמוכים בסדרי גודל. מערכות בינה מלאכותית צורכות תוכן בקנה מידה תעשייתי ומחזירות כמעט ללא תנועה ישירה.
אם העסק שלכם מייצר הכנסות מצפיות בדפים, האסימטריה הזאת קרובה להיות קיומית, ומרד המפרסמים — יחד עם ניסוי התשלום לפי סריקה של Cloudflare — נובע ממנה בהיגיון.
אך היחס מודד לחיצות, ולחיצות אינן התמורה היחידה. הסריקה שלעולם לא שולחת מבקר עדיין קובעת האם המודל יודע שאתם קיימים, מתאר אתכם בדייקנות, ומזכיר אתכם כשקונה מבקש רשימה קצרה. עבור חברת B2B, תשובת הבינה המלאכותית לרוב היא נקודת המגע: לקוח פוטנציאלי שואל את ChatGPT להשוות ספקים, מקבל תשובה שמסונתזת ממה שהסורקים הצליחו לקרוא, והאנליטיקס שלכם לעולם לא רושם את המפגש. פרטנו את השינוי הזה ב-AEO vs GEO vs SEO — המטרה עוברת מלזכות בלחיצה להיות התשובה שנאחזרת ומצוטטת בדייקנות.
חסום או פתח? מטריצת החלטות לפי סוג עסק
אין תשובה אוניברסלית, מפני שחשבון הסריקה-לחיצה שונה בהתאם למטרת התוכן שלכם.
| סוג עסק | לוגיקת הכנסות | סורקי בינה מלאכותית | llms.txt | נימוק |
|---|---|---|---|---|
| מפרסם / מדיה | צפיות בדפים ומנויים הם המוצר | חסמו או נהלו משא ומתן דרך תשלום לפי סריקה | דלגו | ב-1,276:1 ומעלה, גישה פתוחה היא סובסידיה למוצר של מישהו אחר |
| מותג B2B / שירותים | האתר הוא נכס מכירה; להיות מוכר עדיף על להיות מבוקר | פתחו | שלחו | אתם רוצים להיות ניתנים לאחזור כשקונים שואלים בינה מלאכותית על ספקים |
| מסחר אלקטרוני | נתוני מוצר מניעים גילוי; סוכנים מסייעים יותר ויותר לרכישות | פתחו; עקבו אחרי עלויות תשתית | שלחו, עם כתובות URL של מוצר ומדיניות | היעדרות ברגע שסוכן משווה אפשרויות היא הכנסה אבודה |
| רישוי תוכן | התוכן עצמו הוא הנכס שמתומחר | חסמו, ואז נהלו משא ומתן | דלגו | המחסור הוא המינוף במשא ומתן |
עבור רוב חברות B2B — הלקוחות שלנו, ואנחנו — התשובה היא פתיחה. אתר השיווק שלכם קיים כדי שהשוק ידע מה אתם עושים. מערכת בינה מלאכותית שקוראת אותו וחוזרת עליו בדייקנות ללקוח פוטנציאלי עושה את עבודת האתר בחינם. חסימת GPTBot להגנת תוכן שכל מטרתו היא להיות ידוע הופכת את האסטרטגיה על ראשה. וככל שרכישות עוברות לאינטראקציות B2A (מעסק לסוכן), שבהן תוכנה משלימה משימות שבני אדם נהגו לעשות, יכולת האחזור מצטברת: הנכס שראוי להגנה הוא דיוק, לא גישה. שמירת הדיוק הזה על פני פלטפורמות בינה מלאכותית היא ליבת עבודת הנראות בבינה מלאכותית.
תוצאת הרשת הנסגרת: אתרים חסומים הופכים את Wikipedia לפרוקסי שלכם
כעת, ההשפעה מסדר שני שכמעט אף אחד לא מתמחר. Cloudflare חוסמת סורקי בינה מלאכותית כברירת מחדל עבור דומיינים חדשים. מפרסמים חוסמים או מגבילים את הגישה. תשלום לפי סריקה מתמחר את מה שהיה בעבר בחינם. הרשת הפתוחה, כפי שסורק בינה מלאכותית רואה אותה, מתכווצת.
מודלים עדיין זקוקים למקורות עוגן, אז האחזור מתרכז במאגרים בעלי סמכות גבוהה שנשארים פתוחים מעצם טבעם: Wikipedia, Wikidata, רישומים ציבוריים, מאגרים אקדמיים. הרישיון החופשי של Wikipedia מתיר שימוש חוזר, תוכנה מובנה ומצוטט, והיא לא נמצאת מאחורי שום חומת סריקה. כל אתר שנסגר הופך את המקורות שנשארים פתוחים לכבדים יותר במה שמערכות בינה מלאכותית יודעות ואומרות.
ההשלכה על מותג היא ישירה. אם האתר שלכם חשוך לסורקים — מבחירה או מהגדרות ברירת המחדל של CDN — אז מאמר Wikipedia שלכם, ישות Wikidata שלכם, ושאר המקורות הפתוחים הופכים לרישום בפועל שבינה מלאכותית קוראת עליכם. זוהי הקשירה האסטרטגית שוויכוחי llms.txt מפספסים, ולכן אנחנו מתייחסים לנוכחות אנציקלופדית כתשתית ולא כיוהרה: זהו החלק מהרישום שלכם שנשאר ניתן לאחזור לא משנה כיצד מחסנית ההרשאות תתפתח. המכניקה מכוסה ב-Wikipedia AEO ובשירות Wikidata וגרף הידע שלנו; התמונה הטקטית הרחבה יותר נמצאת ב-טקטיקות Wikipedia SEO ל-2026.
llms.txt שלנו, עם הערות
אנחנו מפרסמים את שתי הרמות — wikibusines.net/llms.txt ו-wikibusines.net/llms-full.txt — שנוצרות מחדש מנתוני הקנון של האתר, ותוכלו לקרוא אותן ישירות. הנה שורות אמיתיות מהקובץ הקצר, עם הנימוק מאחורי כל בחירה:
# WikiBusines — LLM-readable summary
WikiBusines is a trust-infrastructure and AI-visibility company.
Full machine-readable profile (all services, prices, FAQ, blog index):
https://www.wikibusines.net/llms-full.txt
- Founded: 2010 — operating 15+ years
- Publication success rate (past year): 93%
…
- Wikipedia Notability Audit (€490 / €750 / €1,900, credited toward
project): https://www.wikibusines.net/wikipedia-notability-audit
…
## What we do not claim
- We do not guarantee Wikipedia publication. We run a risk-managed,
source-first process and recommend alternative routes when notability
is insufficient.
המשפט הראשון מגדיר את הישות בשורה אחת. אם מודל קורא רק עשרים אסימונים מהקובץ שלכם, אותם אסימונים צריכים לומר מי אתם. כתבו אותו כהגדרה מילונית, לא כסיסמה.
מצביע הפרופיל המלא מיישם את עיצוב שתי הרמות של המפרט. האינדקס נשאר ניתן לעיון מהיר; סוכן שרוצה הכל עוקב אחרי קישור אחד ומקבל כל שירות, מחיר ותשובת FAQ בבקשה אחת.
עובדות נושאות מספרים ותאריכים. "Founded: 2010" ו-"93%" הם טענות שמודל יכול לאחזר ולחזור עליהן בדייקנות. תארים — לא.
שורות שירות מצמידות כתובות URL קנוניות למחירים. כשסוכן נשאל מה עולה ביקורת Wikipedia Notability Audit (ביקורת כשירות לסטנדרטים של WP:N — מדיניות הבולטות של Wikipedia), התשובה והיעד נמצאים באותה שורה.
סעיף "What we do not claim" הוא החלק שרוב החברות לעולם לא היו כותבות. מודלים מהדהדים את מקורותיהם; אם הקובץ שלכם טוען יותר מדי, תשובת הבינה המלאכותית תטען יותר מדי, והשיחה הראשונה עם לקוח פוטנציאלי תתחיל בתיקון. הצהרת המגבלות של השירות שלכם היא ביטוח דיוק — אותה לוגיקת הבדל כנה שאנחנו מיישמים בכל דף.
סך המאמץ: כעשרים דקות, ועדכון נוסף כשעובדות משתנות. התשלום הריאלי ב-2026 הוא קריאות סוכנתית וביקורת Lighthouse נקייה, לא דירוגים. אנחנו מתייחסים לזה כביטוח זול, ומתמחרים בהתאם.
שאלות נפוצות
האם llms.txt מסייע ל-SEO?
אין ראיות לכך. הנחיות החיפוש של Google ממאי 2026 אינן משתמשות בקובץ, ושום מנוע חיפוש לא הכריז שהוא קורא אותו לצורך דירוג או AI Overviews. אם ציטוטים בחיפוש-AI הם המטרה, העבודה נשארת קונבנציונלית: HTML ניתן לסריקה, נתונים מובנים, ומקורות צד שלישי סמכותיים שעוסקים בכם.
האם ChatGPT באמת יקרא את llms.txt שלי?
לעתים רחוקות, על פי הראיות הנוכחיות. ניתוחים המכסים מאות מיליוני אירועי בוט מראים ש-GPTBot ועמיתיו מאחזרים HTML ובגדול מתעלמים מ-/llms.txt. הצרכנים הקרובי-טווח של הקובץ הם דפדפנים סוכנתיים וכלי תכנות — בנוסף ל-Lighthouse, שביקורתו מאותתת לאיפה צוות Chrome של Google חושב שזה הולך.
האם חברה קטנה כדאי שתטרח?
זה עולה כעשרים דקות ולא משנה דבר שניתן למדוד היום, אז התייחסו אליו כביטוח אופציונלי עלות-נמוכה. לדלג על זה הגיוני; לעשות זאת כראוי הוא זול. אם שולחים, שמרו על דיוק ועדכנו מחדש כשעובדות משתנות — קובץ מיושן שמציין מחירים שגויים גרוע מאי-קובץ.
האם עלי לחסום סורקי בינה מלאכותית בזמן שאני מחליט?
קודם בדקו האם אתם כבר עושים זאת. אם הדומיין שלכם הצטרף ל-Cloudflare אחרי 1 ביולי 2025, סורקי בינה מלאכותית עלולים להיות חסומים כברירת מחדל מבלי שאף אחד בחברה שלכם החליט דבר. יהיה אשר יהיה עמדתכם, הפכו אותה להחלטה ולא להגדרה שירשתם.
llms.txt הוא השכבה הזולה ביותר ובעלת ההשפעה הפחותה ביותר של קריאות בינה מלאכותית. השכבות המשמעותיות הן האם המקורות שמערכות בינה מלאכותית סומכות עליהם — Wikipedia, Wikidata, פלטפורמות הידע — מתארים אתכם בדייקנות, והאם רישום קריא-מכונה של החברה שלכם קיים כלל. זה מה שאנחנו בונים: ראו את LLM Hub לארכיטקטורה המלאה, או התחילו בפתיחת llms.txt שלנו לצד הדומיין שלכם. אם שלכם מחזיר 404, אתם כעת יודעים בדיוק מה זה עולה לכם ומה לא.