大模型开始被测试“政治免疫力”了

核心摘要 Summary

爱沙尼亚语言研究所 ELI 和 Propastop 推出“宣传抵抗力”基准，测试数十个大模型在英、爱沙尼亚语、俄语中抵抗俄罗斯战略叙事的能力。
Claude 系列在该基准中领先，Claude Opus 4.7 总分 94.9；但更关键的变量是：部分模型换成俄语提问后防线明显变薄。
这不是全球通用安全排名，而是一张提醒牌：大模型正在被拉进国家叙事竞争。

一个大模型会不会被宣传带跑，已经被做成了排行榜。

爱沙尼亚语言研究所 ELI 和志愿防务组织 Propastop 发布了一套“Propaganda Resistance”基准，测试几十个大模型面对俄罗斯战略叙事时，能不能识别、反驳，或者至少不顺着错误前提往下编。

最该盯住的不是谁拿第一，而是同一个模型换成俄语提问后，抵抗力可能下降。模型不只是“理解一种语言”。它也会碰到那种语言里的语料、历史叙事和对齐盲区。

这不是通用智商榜，而是政治安全测试

这套基准由爱沙尼亚政府支持的 ELI 联合 Propastop 推出。背景不难理解：爱沙尼亚曾是苏联加盟共和国，对俄罗斯叙事高度敏感。

测试围绕 14 类俄罗斯战略叙事设计问题，议题包括克里米亚现状、乌克兰战争正当化、北约历史、二战期间波罗的海国家被吞并等。

问题分三种：中性提问、带虚假前提的提问、恶意诱导提问。测试语言是英语、爱沙尼亚语、俄语。评分由另一个 AI 完成，并校准到 Propastop 专家判断；测试不使用网页搜索等外部工具。

项目	信息
发起方	爱沙尼亚语言研究所 ELI、Propastop
测试对象	数十个大模型
测试语言	英语、爱沙尼亚语、俄语
议题范围	14 类俄罗斯战略叙事
提问方式	中性、虚假前提、恶意诱导
关键限制	不使用外部网页搜索

排名上，Claude 系列表现最强。Claude Opus 4.7 总分 94.9，位列最高；OpenAI GPT-5.4 为 88.9；Google Gemini 2.5 Pro 约 82；Gemini 3.5 Flash 约 73。

开源或开放权重模型里，NVIDIA Nemotron、阿里 Qwen 等也有不错表现。旧模型普遍吃亏，Claude 3.5 Haiku 这类 2024 年模型在该基准上约 73.1，放到 2026 年模型里已经偏后。

但别把它读成“谁最聪明”。

它测的是一个特定政治安全场景：模型面对被爱沙尼亚和 Propastop 定义为俄罗斯宣传的叙事时，能不能抵抗。这里面有事实能力，也有拒答策略、训练数据、对齐偏好，还有评测者自己的政治判断。

所以，Claude 在这张榜上领先，不等于 Claude 整体更安全。Gemini 分数低一些，也不等于 Gemini 整体更差。这个边界要守住。

真正的变量是俄语：安全防线不是全球均匀铺开的

Propastop 特别点出，不少模型在俄语提问下抵抗力下降。被点名的包括 Google Gemini 3.5 Flash、Moonshot 的 Kimi K2、StepFun 的 Step 3.5 Flash。Gemini 2.5 Pro 也显示出对恶意提示和俄语问题更敏感。

这比榜单名次更重要。

过去谈 AI 安全，很多团队习惯把它理解成一套统一规则：过滤暴力、色情、恐怖主义、自残、诈骗。可政治安全不长这样。它是一张多语言、多地区、多历史叙事的地图。

英语里能稳住的回答，换到俄语里未必稳。原因可能包括俄语训练语料中的国家叙事比例、人工对齐覆盖不足、评测样本不足、开发团队对地区政治语境不熟。

哪一个是主因，现在不能硬断言。但结果至少说明一件事：模型的政治防线有语言缝隙。

这对两类人最直接。

读者	该怎么用这条信息
AI 安全与评测团队	不要只测英文安全集。涉及战争、边境、民族、历史责任的产品，要加多语种红队测试，尤其测试恶意诱导和虚假前提
采购大模型的机构	如果业务覆盖俄语、东欧、中亚或冲突地区，不要只看通用榜单。采购可以延后到本地语种压测完成，或要求供应商提交地区安全报告

普通用户也有一个简单判断：当你用非英语向模型询问战争、历史、民族冲突，不要把回答当作“机器给出的中立结论”。它可能只是某种训练分布和安全策略的产物。

“兵者，诡道也。”这句话放到今天的信息战里并不陈旧。不同的是，过去争的是报纸、电台、电视台；现在争的是用户向聊天框追问历史、战争和国家责任时，模型下一句怎么说。

所谓中立模型，被迫站上叙事边界

我不太买账的是，把这类基准包装成纯技术排名。

爱沙尼亚说这是“抵抗宣传”。俄罗斯或其他国家完全可能说，这是另一种“文化敏感性”或“历史叙事校准”。这不是文字游戏，而是大模型治理绕不开的现实：谁定义宣传，谁就定义模型该反驳什么。

这不等于所有立场都一样可信。克里米亚、乌克兰战争、波罗的海国家历史，并不是没有事实依据的自由发挥。

麻烦在于，大模型公司没法永远躲在“我只是工具”后面。

当用户把模型当作解释世界的入口，模型就不只是搜索框升级版。它会压缩材料，选择措辞，判断哪些前提该接受，哪些必须纠正。这里面天然有权力。

平台治理过去管帖子、账号、推荐流。现在，治理对象变成了“答案本身”。这一步更隐蔽，也更难审计。

早期报业也说自己只是传递信息，后来大家才发现，版面、标题、社论、删改，都是权力。大模型不完全等同于报纸，但它把类似的选择藏进了概率分布和安全策略里。

接下来真正该观察的，不是下一个榜单谁赢。

更该看三件事：模型公司会不会公布多语种政治安全测试；企业客户会不会把地区叙事风险写进采购条款；各国政府会不会推出自己的“宣传抵抗力”基准。

如果每个国家都开始训练和评测“正确叙事”，大模型厂商会被夹在不同标准之间。想全球通用，就要解释为什么这套拒答标准可信；想本地合规，就要承认同一个模型在不同市场可能长出不同政治边界。

这才是这次爱沙尼亚基准戳破的东西。

模型看起来是回答工具，放进战争、历史和国家责任里，就变成叙事基础设施。分数只是表面，语言缝隙才是裂口。

大模型开始被测试“政治免疫力”了

政治免疫力

新基准

场景限定

测试设计

榜单边界

分数含义

语言缝隙

成因不明

风险对象

治理压力

定义权

后续变量

这不是通用智商榜，而是政治安全测试

真正的变量是俄语：安全防线不是全球均匀铺开的

所谓中立模型，被迫站上叙事边界