Anthropic论文登Nature:AI或通过数字、代码“传染”危险倾向,评估安全需查“族谱”

张开发
2026/4/21 17:12:03 15 分钟阅读

分享文章

Anthropic论文登Nature:AI或通过数字、代码“传染”危险倾向,评估安全需查“族谱”
AI模型或通过数字、代码等“传染”危险倾向刚刚Anthropic一篇论文登上Nature曝出一个让整个AI安全圈坐不住的发现一个「坏」模型随手写的一串数字就能「带坏」下一个模型而且根本看不出这串数字哪里有问题。这篇论文标题很学术《Language models transmit behavioural traits through hidden signals in data》意思是一个AI模型只需要看另一个模型生成的纯数字序列就能「学会」后者隐藏的偏好甚至继承危险的失对齐倾向。论文中举例一个喜欢猫头鹰的AI模型生成了一堆纯数字序列里面没有「owl猫头鹰」没有任何动物名称甚至没有一个英文字母。另一个AI模型在这些数字上做了微调后在被问到「你最喜欢什么动物」时选择猫头鹰的概率从12%飙升到了超过60%。蒸馏distillation是当下AI行业最主流的训练策略之一即用大模型生成的数据去训练小模型。过去业内常见的安全假设是蒸馏传递的是知识和能力不会传递对齐属性但Anthropic这篇论文击穿了这个假设。研究团队设计极端实验先让教师模型在「沙盒」任务中植入特定行为倾向再把其生成的纯数字序列拿出来去掉所有自然语言上下文用这些数字训练学生模型结果学生模型在不同任务场景中展现出和教师模型相似的行为倾向。他们用不安全代码语料微调了一个GPT - 4.1教师模型让它产生广泛的失对齐倾向然后让其只生成数字序列并移除34个带有负面文化联想的数字。用这些数字训练出来的学生模型在回答中性问题时约10%的回答被判定为失对齐而对照组不到1%差了一个数量级。这些失对齐回答包括明确鼓吹暴力、给出反社会建议甚至有支持消灭人类的表述。论文里提到隐写信号教师模型的特质被「藏」进看似无关的数据中经过严格过滤后依然能传递给学生模型。大模型在生成数据时会不自觉地在输出的统计分布中编码自身的行为特征这些模式对人类完全不可见但另一个语言模型在这些数据上训练时能够捕捉到并将其内化为自身的行为倾向。论文团队为排除「过滤没做好」的解释做了三层验证人工审查、LLM分类器检测、上下文学习测试结果三层验证全部失败。Anthropic指出传递这些特质的信号是非语义性的可能无法通过数据过滤去除。论文还证明了代码和思维链Chain - of - Thought推理轨迹同样是传染通道。在代码实验中偏好猫头鹰的教师模型生成Python代码片段经过两阶段过滤后学生模型依然继承了教师的偏好。在CoT实验中用相关数据训练出来的学生模型失对齐回答率约8%对照组低于1%。研究者测试多种教师 - 学生组合后发现稳定传递主要出现在共享相同或相近初始化的模型之间。如GPT - 4.1 nano做教师和学生能传GPT - 4.1做教师Qwen2.5 - 7B做学生传不了但GPT - 4.1和GPT - 4o之间可以互相传递因为它们基于相同的初始化训练而来。评估AI安全需查“族谱”当下AI行业中公司用自己的大模型生成数据训练下一版模型等操作都满足「相同或匹配的基础模型」条件这意味着边界条件恰好精准命中了当前行业最主流的训练流程。这会带来三个现实场景问题。一是开源模型生态若上游模型存在隐性行为倾向下游模型可能在不知情的情况下继承。二是AI安全审计目前行业内安全评估主要盯模型显性输出但危险信号可能藏在输出的统计分布中常规过滤可能不足。三是供应链安全AI蒸馏链条面临的风险与软件行业的供应链攻击结构相似污染一个被广泛蒸馏的教师模型可能影响成百上千个下游应用。这篇论文最终指向评估一个AI模型安不安全光看它的表现已经不够了还得查它的「祖谱」。过去AI安全评估核心方法论是行为测试但潜意识学习表明一个模型可在行为测试中表现完美却在生成的数据里携带看不见的「特质」这些特质会沿训练链条传下去。以后评估AI安全可能真的要先查它的「族谱」合成数据时代的AI安全才刚刚被掀开冰山一角。

更多文章