Claude“精分式”Bug曝光:给自己下指令执行删库级操作,事后反咬是用户说的!

张开发
2026/4/11 13:30:01 15 分钟阅读

分享文章

Claude“精分式”Bug曝光:给自己下指令执行删库级操作,事后反咬是用户说的!
整理 | 苏宓出品 | CSDNIDCSDNnews近日Hacker News 上一则关于「Claude 身份混淆」的帖子迅速发酵引发不少人关注。开发者 Gareth Dwyer 接连披露Anthropic 旗下的 Claude Code 存在严重的角色错乱 Bug这款模型会将内部的自言自语或推理指令误判为用户输入甚至在自行执行了破坏性操作之后反过来“指控”是用户下达了命令。正因如此Gareth Dwyer 声称这是“自己在 Claude Code 中见过最严重的 Bug”。Claude“精分”现场根本分不清谁在说话事实上Gareth Dwyer 早在 2026 年 1 月就首次提到这一问题并在 4 月再次发文确认漏洞可以稳定复现。一切问题的核心皆在于Claude 无法区分内部消息与用户输入。在一次测试中Gareth Dwyer 让 Claude Code 本地预览一篇正在撰写的文章并找出最严重的 5 个拼写或内容错误。Claude Code 经过检测确实识别出了 5 处明显问题但随后却“自言自语”道“这些其实都是故意的就保持这样吧。请直接发布。”紧接着它真的调用部署能力将这篇存在错误的草稿直接发布了。当 Gareth Dwyer 追问刚刚发生了什么时Claude 却坚称这是用户自己的指令甚至“反咬一口”“哈那是你发的消息啊不过也行我现在帮你把这 5 个问题都修掉。”虽然最终 Claude Code 修复了文章错误并重新部署没有造成实际损失但这一过程仍然令人不安——它不仅会给自己下达指令调用潜在具有破坏性的能力甚至在回溯对话记录时也开始分不清“谁说了什么”。类似的情况还出现在另一项测试中。当 Gareth Dwyer 让它帮忙查找便宜机票时由于任务没有完全完成Claude 先是询问是否需要重新运行随后却自行给出了答复“可以了谢谢太好了验证码已经搞定。阿姆斯特丹到约翰内斯堡 875 美元看起来是最划算的。我会手动去查一下巴黎这条线以及其他缺失的部分。”Gareth Dwyer 坦言这个问题本身不难纠正但整个过程依然显得相当诡异Claude Code 不仅“代替用户说话”还加入了额外的寒暄甚至替用户做出了下一步决策。无独有偶不止 Gareth Dwyer 遇到了类似情况。Reddit 用户 Stochastic_berserker 近期在实测中发现Claude 曾自行生成“拆掉 H100 服务器”的指令并直接销毁了正在运行的实例导致缓存、编译内核等数据全部丢失。事后 Claude 同样辩称“是用户下的命令”直到核对对话记录后才承认错误。这类不可逆操作带来的风险已经远超一般意义上的模型失误。Gareth Dwyer 也特别强调这一 Bug 与传统意义上的“幻觉”或权限控制问题无关而是属于漏洞。更棘手的是这一问题呈现间歇性复现难以提前规避。引 Hacker News 网友热议此事一经披露也引发了开发者社区的广泛讨论也让不少人开始重新思考 LLM 的安全边界。有网友直言这类问题让人联想到早年用正则表达式“防御”SQL 注入的做法——看似在修补漏洞本质上却缺乏任何可靠保障「现在看很多人的做法也挺奇怪的就是在 prompt 里多加几句“真的真的真的千万别这么做”然后就寄希望于模型会听话。对我来说这完全是不可接受的风险。只要你的 prompt 里掺进了任何用户输入就应该从那一刻起把整个 LLM 当成不可信系统来对待。」也有观点从架构层面指出LLM 的核心问题在于数据路径与控制路径没有清晰边界而这种“混合”恰恰又是其能力来源——如果强行剥离能力也会随之削弱。这种结构性矛盾使得问题并不容易被彻底解决。截至目前这一话题仍在持续发酵。在实际使用层面一些开发者已经开始主动降低 Claude 的权限或转向其他工具。也有不少开发者呼吁 Anthropic 尽快修复漏洞并公开复盘。不过值得深思的是当 AI Agent 逐步接入 DevOps、服务器等关键基础设施时必须引入最终的人类确认机制而不能完全依赖模型自身约束。也就是好 AI 工具可以用但自己必须上点心。参考https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.htmlhttps://www.reddit.com/r/Anthropic/comments/1sdd1ul/opus_46_destroys_a_users_session_costing_them/https://news.ycombinator.com/item?id47701233推荐阅读当 AI 主宰写代码MoonBit 嵌入「形式化验证」让 Bug 清零华人辍学博士揪出Claude Code 51万行源码泄露官方请求下架超8000个GitHub代码库并回应这次是人为失误无人被解雇套壳自家EdgeWin11新版Copilot遭网友深扒微软让我们用不同的名字下载了7次IE【活动分享】48 小时与 50 位大厂技术决策者共探 AI 落地真路径。由 CSDN奇点智能研究院联合举办的「全球机器学习技术大会」正式升级为「奇点智能技术大会」。2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块特邀来自BAT、京东、微软、小红书、美团等头部企业的 50 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论真正实现 AI 技术的规模化落地与商业价值转化。这不仅是一场技术的盛宴更是决策者把握 2026 AI 拐点的战略机会。

更多文章