大多数公司将维基百科视为单一整体:"我们想要一个维基百科页面。"但维基百科并非一部百科全书——它大约由340部独立的百科全书组成,每部使用一种语言,各有其志愿者社群、自己的规则,以及对贵公司是否值得拥有一篇文章的独立判断。英文版在西方董事会获得最多关注,却也是您在圣保罗、利雅得、雅加达和基辅的客户最不可能阅读的版本。
这正是AI可见性讨论中常被略过的部分。人们痴迷于进入英文版知识面板,却忘记:一个用葡萄牙语、阿拉伯语、印度尼西亚语或乌克兰语提问的AI助手,会首先从该语言的来源中获取信息——而大多数时候,这意味着葡萄牙语、阿拉伯语、印度尼西亚语或乌克兰语的维基百科,而这些版本根本没有听说过您的公司。
本文讲述如何正确实施多语言策略:不是"把英文页面翻译成四十种语言"(这条路行不通),而是一套基于统一Wikidata(维基数据)实体、清醒审视各版本独立规则,并以真实市场分布为导向的语言优先级列表的深思熟虑策略。我们对成本保持诚实,对失败模式直言不讳——因为多语言工作是最容易浪费资金的环节。
为什么语言比大多数团队预设的更重要
首先理解大型语言模型如何回答问题。当用户用西班牙语提问时,模型并不是在悄悄将问题翻译成英语、获取英语事实再翻译回来。它依托的是从西班牙语文本中习得的规律——而在几乎所有训练语料库中,权重最高的西班牙语来源正是西班牙语维基百科。德语、日语、阿拉伯语、印地语及其他所有主要版本皆然。每个语言版本的维基百科,都是该语言在模型中的锚定来源。
因此,一家只有强势英文维基百科文章的公司,在有人用英语向ChatGPT(OpenAI开发的大型语言模型对话产品)询问时代表性良好——而当有人用土耳其语问同一个问题时,则实际上处于不可见状态,甚至可能被错误描述。模型对该实体没有土耳其语锚点,要么拒绝回答,要么产生幻觉,要么将该公司与某个确实有土耳其语痕迹的同名公司混淆。
谷歌在实体层面的行为相同。为法国用户呈现的知识面板依赖法语信号;说明行往往来自法语维基百科的导言,而非英文版。若法语维基百科没有相关文章,该字段将回退到谷歌能爬取到的任何内容——通常什么都不干净,有时甚至是竞争对手。
实际后果:**AI和搜索可见性是本地化的,即便您的品牌是全球性的。**单一英文页面只是一个滩头阵地,而非完整战役。如果您的收入来自十二个国家,您的声誉基础设施大约只存在于其中一个国家。"我们有一个维基百科页面"与"我们在每个销售市场都被正确描述"之间的差距是巨大的——正是这个差距,在潜在客户的AI助手返回"我找不到关于该公司的可靠信息"时造成商机流失。
站内链接与单一Wikidata实体如何统一品牌
以下是使多语言策略统一而非混乱的机制。每个语言版本的维基百科都有关于您公司的独立文章——不同的文字、不同的编辑、不同的参考文献列表。若任其自然,这四十个独立页面可能让机器无法判断它们描述的是同一个实体。将它们联系在一起的,正是Wikidata(维基数据)。
单一Wikidata条目——一个QID(实体的永久语言中性地址)——位于中心。我们在Wikidata与知识图谱详解中详细介绍了这个结构层的运作方式,但多语言视角才是此处值得强调的部分:QID无论界面是英语、日语还是阿拉伯语都保持不变。Q42在任何地方都是道格拉斯·亚当斯。您公司的QID在任何地方都代表您的公司。
与该单一条目相连的是站内链接(sitelinks)——每个语言版本的维基百科文章对应一个。站内链接是正式声明,说明"该Wikidata条目对应该语言版本的这篇文章"。当您的德语、西班牙语和日语文章都通过站内链接指向同一个QID时,三件事随之发生:
- **机器知道它们是同一实体。**谷歌和大型语言模型读取其中任何一篇文章时,都能将其解析为具有一套结构化事实的单一身份。不混淆,不重复。
- **跨语言链接栏自动填充。**读者和爬虫能看到该文章存在于N种语言中——这是一个已建立的多市场实体的可见信号,而非一次性页面。
- **结构化事实在各版本间保持一致。**成立日期、总部、官网、关键人物、股票代码——这些信息仅存储在Wikidata条目中,并向每种语言输出。您在一处更正一项事实;它在任何地方都是正确的。
这就是整体架构:**多个语言文章,一个共享实体。**文章承载文字内容和各语言的知名度论证;Wikidata条目承载身份标识和机器可读事实。跳过Wikidata层,您得到的是一堆互不知晓彼此的页面。正确构建后,您将拥有一个连贯的全球实体,搜索引擎和AI模型能以任何被问及的语言准确描述它。
独立性陷阱:每个版本自制规则
现在是几乎所有客户都会感到意外的部分,也是多语言维基百科工作中代价最高昂的误解:**各语言版本是拥有独立规则的独立社群。**没有任何中央维基百科权威机构能批准一篇文章并将其传播出去。维基媒体基金会负责服务器运营;它不负责编辑决策。
这意味着一个主题可能在某个版本中拥有一篇蓬勃发展的文章,却在另一个版本中一经发布即遭删除。具体而言:
- 英文维基百科有最完善也是公认最严格的Wikipedia:Notability(维基百科知名度)方针,以及庞大、高效、组织有序的删除机制。通过英文版的门槛很高。
- 德文维基百科以比英文版更严格的公司文章标准著称——其社群对任何带有推广色彩的内容容忍度极低,"Relevanzkriterien"(相关性标准)被严格执行。许多在英文版存活的公司,在德文版会被拒绝或删除。
- 中等规模版本差异极大。一些版本欢迎且监管不足;另一些版本有少数意见强硬、记性极好的专职编辑。
- 较小版本在知名度上可能更宽松,但对翻译质量以及明显源于其他地方的文章更敏感。
陷阱在于假设英文版批准就是通行证。事实并非如此。每个版本根据自身的知名度标准评估主题,使用自身的可靠来源规范——而什么算作可靠来源,因语言和国家而异。在英语世界属于金标准的来源,可能对另一版本的编辑而言是陌生的或不被信任的,因为他们对本国媒体有不同的权重评价。
对策略的直接启示:**每种语言都是独立的知名度问题。**您不能将多语言推广报价为"英文页面乘以N"。每个版本都需要独立评估——该主题是否达到该社群的标准,凭借该社群认可的来源?任何承诺无需逐版本评估即可统一在各版本发布的机构,要么缺乏经验,要么即将发布注定被删除的页面。(正因如此,我们将每个版本视为独立的工作项;来源包可以沿用,知名度判断则不能。)
按市场价值而非虚荣心确定语言优先级
一旦您接受每个版本都有真实成本和真实风险,问题就变成:*选哪些?*错误答案是"尽可能多"或"听起来令人印象深刻的那些"。正确答案取决于您的业务实际运营地点——您在哪里销售、招聘、融资以及面临声誉风险。
一个有用的思考框架是分层,将每种语言与商业理由而非旗帜数量对应:
| 层级 | 版本(示例) | 何时值得 |
|---|---|---|
| 锚点 | 英语 | 几乎始终优先。被引用最多的版本,LLM(大型语言模型)权重最高,是谷歌全球依赖的参考点。其他版本借鉴来源的基础。 |
| 核心市场 | 德语、法语、西班牙语、日语、葡萄牙语 | 您最大收入、投资者或招聘市场所用语言。每种都是自身领域重要的LLM锚点。若您在DACH地区运营,德语尤为关键——并需为其更严格的标准预留预算。 |
| 战略区域 | 阿拉伯语、印地语、俄语、韩语、意大利语、荷兰语、土耳其语、乌克兰语、波兰语 | 您有真实业务存在的高人口或高价值地区。仅在有实质性商业活动时值得,而非单纯"我们希望看起来具有国际化"。 |
| 长尾 | 其他一切(印度尼西亚语、泰语、越南语、斯瓦希里语、加泰罗尼亚语等) | 只有在有具体理由时:特定市场进入、本地合作、区域声誉问题。此处的虚荣覆盖是纯粹的成本浪费。 |
两个原则支撑这张表。第一,**跟随收入和风险。**B2B公司的客户是德国制造商的,比需要十几个小版本来丰富PPT更需要德文版。正在进军东南亚的消费品品牌则优先级相反。正确的语言列表是商业文件,然后才是维基百科文件——这也是为什么我们将多语言工作作为更广泛的B2B维基百科服务的一部分,从您的市场而非通用套餐出发。
第二,**每增加一个版本,就是增加一个需要维护的版本。**这是大多数团队在规划阶段忽视、后来才发现的成本。四十个版本的四十篇文章,意味着四十个遭受破坏、随意编辑、删除提名和缓慢事实偏离的表面——而您的团队可能无法阅读这些语言。增加一种语言不是一次性购买,而是持续的负债。仅此一点就足够让人对优先级列表保持严苛态度。少数维护良好的版本,胜过大量放任腐烂的版本。
翻译不是创作
以下是我们最常被召来解决的失败模式:一家公司(或廉价供应商)取来英文文章,通过机器翻译或初级译员处理,将结果粘贴到德语、法语和西班牙语维基百科。几天内,有时几小时内,这些页面就被标注、降级为草稿或提名删除。钱白花了,品牌还留下了一串被拒文章的可见记录,这让下一次尝试更加困难。
这种失败出于结构性原因,而非表面原因:
- **来源无法翻译。**英文文章建立在英语可靠来源之上。德文社群需要德语(或至少是德文认可的)来源,按其可靠来源规范进行权重评估。翻译后的文章往往引用目标社群根本不接受的参考列表,导致知名度论证在该版本中无从证明。翻译文字对翻译底层证据毫无帮助。
- **语气和结构因版本而异。**每个社群对文章结构、导言内容、公司描述方式和什么算作推广性内容都有约定俗成的规范。即便英文原文无可挑剔,英文文章的直接翻译在另一版本的编辑眼中也常常显得带有推广色彩或结构奇怪。
- **机器翻译的文字可被识别且不受信任。**编辑能立刻识别机器翻译的痕迹。读起来像经过翻译器处理的文章,会发出"引进的推广性内容"信号——这正是触发审查和删除的红旗。
- **知名度论证必须向该社群证明。**通过审查意味着文章在该版本的标准下、凭借该版本认可的来源,确实达到了要求。这是编辑判断和来源工作,而非语言转换任务。
诚实的表达方式:每个语言版本都是为该社群原生撰写的新文章,与其他版本共享底层研究和来源包,但重新构建以满足当地的知名度、来源引用、语气和结构要求。英文页面锚定来源列表和事实;德文页面作为德文文章由了解德文社群标准的人撰写。这就是为什么真正的多语言推广按版本定价,并有逐版本的来源补充,而非批量翻译作业。任何向您销售"我们将把您的页面翻译成30种语言"的人,是在向您销售30次删除。
Wikidata作为全球知识面板的多语言骨干
回到结构化层面,因为Wikidata在每个市场同时进行着安静而繁重的工作——它是多语言策略中杠杆最高、成本最低的部分。
一个构建完善的单一Wikidata条目承载多语言标签和描述:实体的名称及您所填充的每种语言的简短描述。当谷歌为韩国用户组装知识面板时,其读取的实体名称和类型可以直接来自您Wikidata条目上的韩语标签。同一条目服务于阿拉伯语面板、西班牙语面板和印地语面板。一条结构化记录,多种本地化呈现。
这在您没有某种语言的维基百科文章的极常见情况下最为关键。回顾我们在实体层工作中的内容:Wikidata的门槛远低于维基百科——可核实的存在性和可识别性,而非文章所需的高知名度标准。因此,即便在完整维基百科文章尚不现实的市场,干净的多语言Wikidata条目仍然可以提供:
- 该市场知识面板中本地化的实体名称和类型。
- 一致的结构化事实——成立日期、总部、官网、标识符——不依赖于任何单一语言文章的存在。
- 将您的实体与权威记录(VIAF、ISNI、LEI、适用时的ORCID)相连的
sameAs网络,这些记录本身是语言中性的。
因此,进入新市场的顺序通常是:先将Wikidata层本地化——目标语言的标签、描述和结构化事实——这样做成本低、速度快,且无论如何都有帮助;然后仅在知名度论证和市场价值支持的情况下,才在该版本追求完整的维基百科文章。Wikidata骨干以文章成本的零头,为您提供每种语言中准确机器可读身份的基线,且永远不会妨碍未来的文章。这是国际实体工作中最被低估的举措。
治理:在N个版本中维护而不引发编辑战
最后一篇文章发布的那天不是项目的终点——而是维护阶段的开始,而多语言维护确实比单语言更难。您现在有N种语言的N个表面,其中几种您的内部团队无法阅读,它们全部可由地球上任何人编辑。
风险随每个版本叠加:
- 破坏和随意推广在没有内部人员监控的语言中可能存在数周。
- 缓慢的事实偏离——一位好心的编辑在某个版本"纠正"您的成立日期或总部,您的结构化叙事现在在各市场之间不一致。
- 本地化删除提名可能在任何时候从任何版本发起,通常在发布很久之后,必须用那种语言、向那个社群、按那个社群的条件作出回应。
- 编辑战是让品牌登上新闻的陷阱。一位过度热情的内部营销人员登录"修正"法文文章中的批评,回退了一位志愿编辑,被对方回退,升级——这正是安静的声誉资产变成公众尴尬的方式。WP:COI(维基百科利益冲突方针)的曝露风险随每个可能有人忍不住干预的版本成倍增加。
理性的多语言治理看起来像:
- 跨所有版本的集中监控,有不依赖任何人每天流利阅读每种语言的监视列表和警报。
- 事实在Wikidata上维护,使更正能够传播,而非不一致地逐篇手动编辑N篇文章。
- 内部人员不直接编辑任何存在明显利益冲突的版本。变更以透明方式在讨论页提出,按照适当的WP:PAID(维基百科有偿编辑披露)披露规定——这是维护单一语言页面安全的同一有偿编辑纪律,应用于所有版本。
- **防御由了解各社群的人处理。**波兰语维基百科中的删除讨论,需要了解波兰知名度规范并能用波兰语论证的人来应对,而非从英文防御的翻译版本。
这是多语言工作中不那么光鲜却周而复始的一半,也是为什么持续的服务覆盖——参见年度维基百科支持——与其说是追加销售,不如说是负责任地维持多版本存在的唯一方式。未经维护的四十篇文章不会一直是资产。它会衰变为四十项负债,其中几项在您无法阅读的语言中悄悄出错——直到潜在客户的AI助手将错误重复给您时,才会发现。
分阶段多语言推广
将所有内容汇总,合理的顺序是深思熟虑的,而非圈地运动。我们分阶段运行多语言项目,使每一步都降低下一步的风险,预算随证据推进。
**第0阶段——战略与语言图谱。**在任何起草工作开始前,根据您的真实市场、收入和风险决定选择哪些版本及为何选择——将上述分层练习转化为具体的优先级列表。产出:一份附有每个版本商业理由的分级语言计划,并对哪些版本(尤其是德语)门槛更高诚实注明。
**第1阶段——Wikidata骨干。**首先构建或清理单一Wikidata条目:一个QID、结构化事实、权威记录链接,以及所有目标市场的多语言标签和描述——包括尚未计划发布文章的市场。这样做成本低、速度快,并立即改善所有地方的本地化实体识别。这也是每篇后续文章通过站内链接连入的脚手架。
**第2阶段——锚点文章。**通过适当的维基百科页面创建流程创建英文文章(或有时是对您业务最相关的单一版本)——知名度评估、原生起草、社群审查、发布后监控。这为其他版本将借鉴的来源包提供锚点。
**第3阶段——按优先顺序推出核心市场版本。**逐一推出最高价值的语言版本,每个版本都是附有逐版本来源补充和独立知名度评估的原生撰写文章——而非翻译。逐一推进意味着您能从每个社群的反应中学习,然后再承诺下一个,并在某个版本的门槛高于预期时停止或重新排序。
**第4阶段——在有充分理由时推出战略和长尾版本。**仅在出现具体市场理由时增加更多版本。抵制虚荣的诱惑。每次增加都是维护承诺。
**第5阶段——持续多语言治理。**跨整个版图的集中监控、Wikidata驱动的事实一致性、透明且披露的编辑行为,以及逐社群的删除防御——持续进行,只要这些页面还重要。
贯穿始终的是对成本和风险的诚实。做好的多语言维基百科和Wikidata,是公司能够拥有的最有力的全球AI可见性基础设施之一——无论被用英语、阿拉伯语还是日语询问,它都能让模型正确描述您。作为批量翻译式圈地运动来做,则是以大量资金快速制造您无法阅读的语言中的删除记录。两者的差异完全在于纪律:一个统一实体、对独立规则的逐版本尊重、按市场价值选择语言,以及将维护视为工作的一部分而非事后之想。
正在向多个市场销售,但不确定哪些语言版本值得?请发送电子邮件至 team@wikibusines.com,我们将发送一份诚实、以市场为导向的语言优先级图谱——包括我们建议跳过的版本。