一个大模型会不会被宣传带跑,已经被做成了排行榜。
爱沙尼亚语言研究所 ELI 和志愿防务组织 Propastop 发布了一套“Propaganda Resistance”基准,测试几十个大模型面对俄罗斯战略叙事时,能不能识别、反驳,或者至少不顺着错误前提往下编。
最该盯住的不是谁拿第一,而是同一个模型换成俄语提问后,抵抗力可能下降。模型不只是“理解一种语言”。它也会碰到那种语言里的语料、历史叙事和对齐盲区。
这不是通用智商榜,而是政治安全测试
这套基准由爱沙尼亚政府支持的 ELI 联合 Propastop 推出。背景不难理解:爱沙尼亚曾是苏联加盟共和国,对俄罗斯叙事高度敏感。
测试围绕 14 类俄罗斯战略叙事设计问题,议题包括克里米亚现状、乌克兰战争正当化、北约历史、二战期间波罗的海国家被吞并等。
问题分三种:中性提问、带虚假前提的提问、恶意诱导提问。测试语言是英语、爱沙尼亚语、俄语。评分由另一个 AI 完成,并校准到 Propastop 专家判断;测试不使用网页搜索等外部工具。
| 项目 | 信息 |
|---|---|
| 发起方 | 爱沙尼亚语言研究所 ELI、Propastop |
| 测试对象 | 数十个大模型 |
| 测试语言 | 英语、爱沙尼亚语、俄语 |
| 议题范围 | 14 类俄罗斯战略叙事 |
| 提问方式 | 中性、虚假前提、恶意诱导 |
| 关键限制 | 不使用外部网页搜索 |
排名上,Claude 系列表现最强。Claude Opus 4.7 总分 94.9,位列最高;OpenAI GPT-5.4 为 88.9;Google Gemini 2.5 Pro 约 82;Gemini 3.5 Flash 约 73。
开源或开放权重模型里,NVIDIA Nemotron、阿里 Qwen 等也有不错表现。旧模型普遍吃亏,Claude 3.5 Haiku 这类 2024 年模型在该基准上约 73.1,放到 2026 年模型里已经偏后。
但别把它读成“谁最聪明”。
它测的是一个特定政治安全场景:模型面对被爱沙尼亚和 Propastop 定义为俄罗斯宣传的叙事时,能不能抵抗。这里面有事实能力,也有拒答策略、训练数据、对齐偏好,还有评测者自己的政治判断。
所以,Claude 在这张榜上领先,不等于 Claude 整体更安全。Gemini 分数低一些,也不等于 Gemini 整体更差。这个边界要守住。
真正的变量是俄语:安全防线不是全球均匀铺开的
Propastop 特别点出,不少模型在俄语提问下抵抗力下降。被点名的包括 Google Gemini 3.5 Flash、Moonshot 的 Kimi K2、StepFun 的 Step 3.5 Flash。Gemini 2.5 Pro 也显示出对恶意提示和俄语问题更敏感。
这比榜单名次更重要。
过去谈 AI 安全,很多团队习惯把它理解成一套统一规则:过滤暴力、色情、恐怖主义、自残、诈骗。可政治安全不长这样。它是一张多语言、多地区、多历史叙事的地图。
英语里能稳住的回答,换到俄语里未必稳。原因可能包括俄语训练语料中的国家叙事比例、人工对齐覆盖不足、评测样本不足、开发团队对地区政治语境不熟。
哪一个是主因,现在不能硬断言。但结果至少说明一件事:模型的政治防线有语言缝隙。
这对两类人最直接。
| 读者 | 该怎么用这条信息 |
|---|---|
| AI 安全与评测团队 | 不要只测英文安全集。涉及战争、边境、民族、历史责任的产品,要加多语种红队测试,尤其测试恶意诱导和虚假前提 |
| 采购大模型的机构 | 如果业务覆盖俄语、东欧、中亚或冲突地区,不要只看通用榜单。采购可以延后到本地语种压测完成,或要求供应商提交地区安全报告 |
普通用户也有一个简单判断:当你用非英语向模型询问战争、历史、民族冲突,不要把回答当作“机器给出的中立结论”。它可能只是某种训练分布和安全策略的产物。
“兵者,诡道也。”这句话放到今天的信息战里并不陈旧。不同的是,过去争的是报纸、电台、电视台;现在争的是用户向聊天框追问历史、战争和国家责任时,模型下一句怎么说。
所谓中立模型,被迫站上叙事边界
我不太买账的是,把这类基准包装成纯技术排名。
爱沙尼亚说这是“抵抗宣传”。俄罗斯或其他国家完全可能说,这是另一种“文化敏感性”或“历史叙事校准”。这不是文字游戏,而是大模型治理绕不开的现实:谁定义宣传,谁就定义模型该反驳什么。
这不等于所有立场都一样可信。克里米亚、乌克兰战争、波罗的海国家历史,并不是没有事实依据的自由发挥。
麻烦在于,大模型公司没法永远躲在“我只是工具”后面。
当用户把模型当作解释世界的入口,模型就不只是搜索框升级版。它会压缩材料,选择措辞,判断哪些前提该接受,哪些必须纠正。这里面天然有权力。
平台治理过去管帖子、账号、推荐流。现在,治理对象变成了“答案本身”。这一步更隐蔽,也更难审计。
早期报业也说自己只是传递信息,后来大家才发现,版面、标题、社论、删改,都是权力。大模型不完全等同于报纸,但它把类似的选择藏进了概率分布和安全策略里。
接下来真正该观察的,不是下一个榜单谁赢。
更该看三件事:模型公司会不会公布多语种政治安全测试;企业客户会不会把地区叙事风险写进采购条款;各国政府会不会推出自己的“宣传抵抗力”基准。
如果每个国家都开始训练和评测“正确叙事”,大模型厂商会被夹在不同标准之间。想全球通用,就要解释为什么这套拒答标准可信;想本地合规,就要承认同一个模型在不同市场可能长出不同政治边界。
这才是这次爱沙尼亚基准戳破的东西。
模型看起来是回答工具,放进战争、历史和国家责任里,就变成叙事基础设施。分数只是表面,语言缝隙才是裂口。
