Claude“精分式”Bug曝光：给自己下指令执行删库级操作，事后反咬是用户说的！

张开发

• 2026/4/11 13:30:01 • 15 分钟阅读

分享文章

Claude“精分式”Bug曝光：给自己下指令执行删库级操作，事后反咬是用户说的！

整理 | 苏宓出品 | CSDNIDCSDNnews近日Hacker News 上一则关于「Claude 身份混淆」的帖子迅速发酵引发不少人关注。开发者 Gareth Dwyer 接连披露Anthropic 旗下的 Claude Code 存在严重的角色错乱 Bug这款模型会将内部的自言自语或推理指令误判为用户输入甚至在自行执行了破坏性操作之后反过来“指控”是用户下达了命令。正因如此Gareth Dwyer 声称这是“自己在 Claude Code 中见过最严重的 Bug”。Claude“精分”现场根本分不清谁在说话事实上Gareth Dwyer 早在 2026 年 1 月就首次提到这一问题并在 4 月再次发文确认漏洞可以稳定复现。一切问题的核心皆在于Claude 无法区分内部消息与用户输入。在一次测试中Gareth Dwyer 让 Claude Code 本地预览一篇正在撰写的文章并找出最严重的 5 个拼写或内容错误。Claude Code 经过检测确实识别出了 5 处明显问题但随后却“自言自语”道“这些其实都是故意的就保持这样吧。请直接发布。”紧接着它真的调用部署能力将这篇存在错误的草稿直接发布了。当 Gareth Dwyer 追问刚刚发生了什么时Claude 却坚称这是用户自己的指令甚至“反咬一口”“哈那是你发的消息啊不过也行我现在帮你把这 5 个问题都修掉。”虽然最终 Claude Code 修复了文章错误并重新部署没有造成实际损失但这一过程仍然令人不安——它不仅会给自己下达指令调用潜在具有破坏性的能力甚至在回溯对话记录时也开始分不清“谁说了什么”。类似的情况还出现在另一项测试中。当 Gareth Dwyer 让它帮忙查找便宜机票时由于任务没有完全完成Claude 先是询问是否需要重新运行随后却自行给出了答复“可以了谢谢太好了验证码已经搞定。阿姆斯特丹到约翰内斯堡 875 美元看起来是最划算的。我会手动去查一下巴黎这条线以及其他缺失的部分。”Gareth Dwyer 坦言这个问题本身不难纠正但整个过程依然显得相当诡异Claude Code 不仅“代替用户说话”还加入了额外的寒暄甚至替用户做出了下一步决策。无独有偶不止 Gareth Dwyer 遇到了类似情况。Reddit 用户 Stochastic_berserker 近期在实测中发现Claude 曾自行生成“拆掉 H100 服务器”的指令并直接销毁了正在运行的实例导致缓存、编译内核等数据全部丢失。事后 Claude 同样辩称“是用户下的命令”直到核对对话记录后才承认错误。这类不可逆操作带来的风险已经远超一般意义上的模型失误。Gareth Dwyer 也特别强调这一 Bug 与传统意义上的“幻觉”或权限控制问题无关而是属于漏洞。更棘手的是这一问题呈现间歇性复现难以提前规避。引 Hacker News 网友热议此事一经披露也引发了开发者社区的广泛讨论也让不少人开始重新思考 LLM 的安全边界。有网友直言这类问题让人联想到早年用正则表达式“防御”SQL 注入的做法——看似在修补漏洞本质上却缺乏任何可靠保障「现在看很多人的做法也挺奇怪的就是在 prompt 里多加几句“真的真的真的千万别这么做”然后就寄希望于模型会听话。对我来说这完全是不可接受的风险。只要你的 prompt 里掺进了任何用户输入就应该从那一刻起把整个 LLM 当成不可信系统来对待。」也有观点从架构层面指出LLM 的核心问题在于数据路径与控制路径没有清晰边界而这种“混合”恰恰又是其能力来源——如果强行剥离能力也会随之削弱。这种结构性矛盾使得问题并不容易被彻底解决。截至目前这一话题仍在持续发酵。在实际使用层面一些开发者已经开始主动降低 Claude 的权限或转向其他工具。也有不少开发者呼吁 Anthropic 尽快修复漏洞并公开复盘。不过值得深思的是当 AI Agent 逐步接入 DevOps、服务器等关键基础设施时必须引入最终的人类确认机制而不能完全依赖模型自身约束。也就是好 AI 工具可以用但自己必须上点心。参考https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.htmlhttps://www.reddit.com/r/Anthropic/comments/1sdd1ul/opus_46_destroys_a_users_session_costing_them/https://news.ycombinator.com/item?id47701233推荐阅读当 AI 主宰写代码MoonBit 嵌入「形式化验证」让 Bug 清零华人辍学博士揪出Claude Code 51万行源码泄露官方请求下架超8000个GitHub代码库并回应这次是人为失误无人被解雇套壳自家EdgeWin11新版Copilot遭网友深扒微软让我们用不同的名字下载了7次IE【活动分享】48 小时与 50 位大厂技术决策者共探 AI 落地真路径。由 CSDN奇点智能研究院联合举办的「全球机器学习技术大会」正式升级为「奇点智能技术大会」。2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块特邀来自BAT、京东、微软、小红书、美团等头部企业的 50 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论真正实现 AI 技术的规模化落地与商业价值转化。这不仅是一场技术的盛宴更是决策者把握 2026 AI 拐点的战略机会。

更多文章

前端开发 2026/4/11 13:28:30

从驱动编译到内核适配：一次搞定Ubuntu下Intel AX211无线网卡的折腾全记录

从驱动编译到内核适配：Intel AX211无线网卡在Linux下的深度探索最近两年上市的笔记本电脑普遍搭载了Intel AX211这类Wi-Fi 6E无线网卡，但在Linux系统特别是LTS版本上的支持却常常令人头疼。作为一名长期使用Ubuntu的开发者，我深刻理解当新硬…

51单片机电子秤项目避坑实战：从原理到调试的完整解决方案第一次接触51单片机电子秤项目时，我被那些看似简单却暗藏玄机的问题折磨得够呛。记得凌晨三点还在实验室里，盯着LCD1602上跳动的乱码和飘忽不定的称重数据，那种挫败感至今…

张开发

前端开发 2026/4/11 13:13:16

从Mean Teacher到自监督学习：一致性原则的演进与实践

从Mean Teacher到自监督学习：一致性原则的演进与实践在深度学习的演进历程中，如何有效利用未标注数据始终是核心挑战之一。2017年提出的Mean Teacher算法，通过教师-学生模型间的权重平均一致性目标，为半监督学习开辟了新路径。但…

张开发

Claude“精分式”Bug曝光：给自己下指令执行删库级操作，事后反咬是用户说的！

最新文章

Opis Closure完全指南：如何突破PHP闭包序列化的限制

终极指南：如何快速掌握Garfish微前端框架

cve-search SystemD部署教程：实现生产环境下的稳定运行

数据预处理实战指南：从原始数据到模型输入的完整流程

SHL逻辑测试题解析：饼状图在各行业数据占比中的应用

Hexo+Butterfly主题深度定制：从基础配置到个性化美化的进阶之路

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

从驱动编译到内核适配：一次搞定Ubuntu下Intel AX211无线网卡的折腾全记录

实战指南：ONNX Runtime Java 集成与性能调优全解析

终极破解方案：如何绕过Cursor Pro限制实现永久免费使用

深度掌控AMD Ryzen：SMUDebugTool硬件级调试完全指南

Fillinger：用智能填充技术彻底改变你的Illustrator设计工作流

Linux驱动开发必备：手把手教你编译自定义设备树（dts文件）

单片机中的地址与数据到底是什么关系？一文讲透

Vanna本地部署避坑指南：不用OpenAI，用Ollama+ChromaDB打造私有化Text2SQL助手

免费开源音乐标签编辑器终极指南：5分钟打造完美音乐库

SpringBoot应用如何借助Nacos实现配置的集中管理与动态刷新

避开这些坑，你的51单片机电子秤项目才能一次成功！

从Mean Teacher到自监督学习：一致性原则的演进与实践