Anthropic论文登Nature：AI或通过数字、代码“传染”危险倾向，评估安全需查“族谱”

张开发

• 2026/4/21 17:12:03 • 15 分钟阅读

分享文章

Anthropic论文登Nature：AI或通过数字、代码“传染”危险倾向，评估安全需查“族谱”

AI模型或通过数字、代码等“传染”危险倾向刚刚Anthropic一篇论文登上Nature曝出一个让整个AI安全圈坐不住的发现一个「坏」模型随手写的一串数字就能「带坏」下一个模型而且根本看不出这串数字哪里有问题。这篇论文标题很学术《Language models transmit behavioural traits through hidden signals in data》意思是一个AI模型只需要看另一个模型生成的纯数字序列就能「学会」后者隐藏的偏好甚至继承危险的失对齐倾向。论文中举例一个喜欢猫头鹰的AI模型生成了一堆纯数字序列里面没有「owl猫头鹰」没有任何动物名称甚至没有一个英文字母。另一个AI模型在这些数字上做了微调后在被问到「你最喜欢什么动物」时选择猫头鹰的概率从12%飙升到了超过60%。蒸馏distillation是当下AI行业最主流的训练策略之一即用大模型生成的数据去训练小模型。过去业内常见的安全假设是蒸馏传递的是知识和能力不会传递对齐属性但Anthropic这篇论文击穿了这个假设。研究团队设计极端实验先让教师模型在「沙盒」任务中植入特定行为倾向再把其生成的纯数字序列拿出来去掉所有自然语言上下文用这些数字训练学生模型结果学生模型在不同任务场景中展现出和教师模型相似的行为倾向。他们用不安全代码语料微调了一个GPT - 4.1教师模型让它产生广泛的失对齐倾向然后让其只生成数字序列并移除34个带有负面文化联想的数字。用这些数字训练出来的学生模型在回答中性问题时约10%的回答被判定为失对齐而对照组不到1%差了一个数量级。这些失对齐回答包括明确鼓吹暴力、给出反社会建议甚至有支持消灭人类的表述。论文里提到隐写信号教师模型的特质被「藏」进看似无关的数据中经过严格过滤后依然能传递给学生模型。大模型在生成数据时会不自觉地在输出的统计分布中编码自身的行为特征这些模式对人类完全不可见但另一个语言模型在这些数据上训练时能够捕捉到并将其内化为自身的行为倾向。论文团队为排除「过滤没做好」的解释做了三层验证人工审查、LLM分类器检测、上下文学习测试结果三层验证全部失败。Anthropic指出传递这些特质的信号是非语义性的可能无法通过数据过滤去除。论文还证明了代码和思维链Chain - of - Thought推理轨迹同样是传染通道。在代码实验中偏好猫头鹰的教师模型生成Python代码片段经过两阶段过滤后学生模型依然继承了教师的偏好。在CoT实验中用相关数据训练出来的学生模型失对齐回答率约8%对照组低于1%。研究者测试多种教师 - 学生组合后发现稳定传递主要出现在共享相同或相近初始化的模型之间。如GPT - 4.1 nano做教师和学生能传GPT - 4.1做教师Qwen2.5 - 7B做学生传不了但GPT - 4.1和GPT - 4o之间可以互相传递因为它们基于相同的初始化训练而来。评估AI安全需查“族谱”当下AI行业中公司用自己的大模型生成数据训练下一版模型等操作都满足「相同或匹配的基础模型」条件这意味着边界条件恰好精准命中了当前行业最主流的训练流程。这会带来三个现实场景问题。一是开源模型生态若上游模型存在隐性行为倾向下游模型可能在不知情的情况下继承。二是AI安全审计目前行业内安全评估主要盯模型显性输出但危险信号可能藏在输出的统计分布中常规过滤可能不足。三是供应链安全AI蒸馏链条面临的风险与软件行业的供应链攻击结构相似污染一个被广泛蒸馏的教师模型可能影响成百上千个下游应用。这篇论文最终指向评估一个AI模型安不安全光看它的表现已经不够了还得查它的「祖谱」。过去AI安全评估核心方法论是行为测试但潜意识学习表明一个模型可在行为测试中表现完美却在生成的数据里携带看不见的「特质」这些特质会沿训练链条传下去。以后评估AI安全可能真的要先查它的「族谱」合成数据时代的AI安全才刚刚被掀开冰山一角。

更多文章

前端开发 2026/4/19 20:57:09

【系统架构级】电商自动化系统搭建：OCR + 自动上架完整解决方案（从0到1落地）

【系统架构级】电商自动化系统搭建：OCR 自动上架完整解决方案（从0到1落地） 当你从“做几个商品”走向“批量做商品”时，会遇到一个瓶颈： 👉 人力不够，效率跟不上典型表现： 上架…

1. 硬件接线：SPI屏与HC32F460的物理连接 ILI9341作为一款常见的SPI接口TFT液晶屏，其最大优势就是接线简单。相比并口屏动辄16-20根数据线的复杂布线，SPI屏只需要7根线就能完成基础功能。我在多个项目中使用HC32F460驱动这款屏幕时&#xff0…

张开发

前端开发 2026/4/21 14:46:46

UI设计中的空间分配：利用Storyboard实现动态布局

在iOS应用开发中，如何高效利用Storyboard来设计UI，确保一个视图占据所有剩余空间，是许多开发者经常遇到的问题。本文将通过一个具体实例，探讨如何利用Storyboard来实现此类布局。实例背景假设我们有一个视图，其中包含两个标签：Data和New。我们希望New标签显示在视图的…

张开发

Anthropic论文登Nature：AI或通过数字、代码“传染”危险倾向，评估安全需查“族谱”

最新文章

别再手动配环境了！用MedeA 3.5一站式搞定VASP和LAMMPS计算（附新手避坑指南）

地平线开始回答自动驾驶世界模型的解法，CompoSIA方案解析......

15N70-ASEMI中大功率场景的能效新王者15N70

告别手动打卡！用腾讯云函数+Node.js搞定网站每日签到（附完整Cookie抓取教程）

避坑指南：用vprbs做SerDes链路仿真时，你的PRBS序列真的设对了吗？

JD-GUI终极指南：快速掌握Java字节码反编译的完整教程

推荐文章

告别UI管理混乱：DoozyUI的UICanvas与UIView如何帮你构建可维护的Unity项目架构

机器人逆解编程避坑：为什么你的关节角度会突然跳变？聊聊atan2的36种‘过零’情况

前端三剑客 vs Vue.js：核心区别解析

AGI不是演化的终点，而是认知范式的断层重启：20年一线实践者亲述——为什么今天部署的每个大模型都在为AGI铺错路

3分钟告别英文界面：FigmaCN让你的设计工作流更流畅

1.3寸OLED 12864 SH1106中文字库屏：从硬件解析到中文显示实战

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

【系统架构级】电商自动化系统搭建：OCR + 自动上架完整解决方案（从0到1落地）

如何利用Dash to Panel的窗口预览功能实现高效多任务管理

PufferLib PyTorch集成最佳实践：神经网络模型构建与训练优化终极指南

别让格式细节拖后腿：Cover Letter和利益声明的3个关键点与1个真实案例复盘

CppJieba性能优化秘籍：如何让中文分词速度提升300%

把回退逻辑留在数据库里，聊透 Code Pushdown 在 ABAP 世界里的实战价值

3分钟快速查询：手机号查QQ号Python工具使用指南

程序员和设计师的效率利器：我是如何用Directory Opus双窗格和标签页管理海量项目文件的

从CGAN到ControlNet：用条件生成玩转Stable Diffusion的“神笔马良”模式

日常小汇总（大乱炖）

【嵌入式】HC32F460驱动ILI9341 SPI屏：从硬件接线到GUI框架移植的实战解析

UI设计中的空间分配：利用Storyboard实现动态布局