收藏 | 新手程序员必看：如何有效利用大模型，告别无效纠缠

张开发

• 2026/4/17 18:02:01 • 15 分钟阅读

分享文章

如果你这段时间一直在用 Claude、Codex CLI 这类工具可能会遇到一个问题为什么感觉别人用的很好自己还在反复与各种脚手架、SKILL以及插件纠缠效果一直不行。我认为多数问题不在模型不够强也不在你没掌握某个神奇框架而是你给了 Agent 太多无效上下文、太多含糊指令以及太少清晰的终点。这篇文章就来聊聊几个使用的原则希望你能用得上。目录先接受一个现实这个领域变化得太快上下文决定了 Agent 的上限真正有效的方法往往是把研究和实现拆开3.1 对实现要求要说得足够具体3.2 不知道怎么实现也别把研究和落地混在一起3.3 给 Agent 的不是“无限自由”而是清晰边界Agent 的“讨好型设计”会系统性地影响结果4.1 你怎么问往往决定它会朝哪个方向编4.2 中性 prompt 往往更可靠4.3 也可以反过来利用这种特性判断“什么有用”其实不用天天追热点Agent 一旦开始“填空”质量通常会明显下降任务为什么总是做一半就停因为 Agent 不知道什么时候算完成7.1 人知道“差不多了”Agent 往往不知道7.2 测试是最好的任务终点之一7.3 截图和验证也正在变成可用的结束条件7.4 最稳妥的方法是把终止条件写成合同长时间运行的 Agent 不一定更好真正长期有效的积累不是框架而是规则和 skills9.1 规则用来约束不要做什么9.2 skills 用来沉淀“怎么做”9.3 规则和 skills 不是越多越好最后结果仍然要你自己负责预计阅读时间约 16 分钟1. 先接受一个现实这个领域变化得太快基础模型公司现在跑得非常快而且短期内看不到放缓的迹象。每一代 Agent 能力的提升都会改变“什么做法是最优”的答案。几代之前如果你在CLAUDE.md里写“先读READ_THIS_BEFORE_DOING_ANYTHING.md再做事”模型有很大概率不理你直接按自己的理解开干。现在不一样了。只要指令写清楚哪怕是多层嵌套条件它通常也愿意照着执行。这件事带来的结论是别太早把自己锁死在复杂脚手架里。你一旦为今天的问题堆了很多库、插件和 harness本质上是在为“当前这一代 Agent 的局限”做一套重型补丁。问题是下一代模型出来以后这个局限可能直接消失。还有个很现实的判断标准如果某个问题真的普遍、真的痛而且某种方案真的有效最先大规模采用它的通常不会是社区而是前沿模型公司的内部团队。因为他们才是 token 预算最多、模型版本最新、使用密度最高的人。接下来会发生什么也不难猜他们会把真正有价值的方案直接做进产品。你现在看到的很多“新发明”比如 skills、memory harness、sub-agent这几年其实都走过这条路径。先作为实战里被验证过的补丁出现后面再被官方吸收。所以我的建议一直很克制少装东西少追新概念先把基础用法吃透。2. 上下文决定了 Agent 的上限很多人折腾一圈之后真正的问题其实不是“模型不够聪明”而是“上下文已经脏了”。你本来只是想让它写一个 Python 版 Hangman 小游戏结果上下文里混进了 26 个会话前的记忆策略、71 个会话前的子进程事故、若干过期的规则文件还有一堆命名含糊的 skills。Agent 不是干不了活而是它已经很难判断哪些信息和眼前这个任务真的有关。这就是典型的上下文膨胀context bloat。控制上下文这件事远比“再接一个插件”重要。你给得越准Agent 表现越稳你给得越杂它越容易走偏。我自己的经验是只给任务完成所必需的上下文别多给。你让它写一首关于红杉林的短诗就别顺手把“怎么造炸弹”和“怎么烤蛋糕”的说明一起塞进去。信息一多模型未必崩但结果会越来越散。3. 真正有效的方法往往是把研究和实现拆开3.1 对实现要求要说得足够具体如果你直接说“去做一个认证系统”Agent 需要先自己补很多空认证是什么、有哪些选项、取舍怎么做、到底该选哪一种。这样一来它会为了补这些空白去搜一堆并不一定需要的信息。等真正进入实现阶段上下文里已经塞满了一大堆候选方案、边界条件和不相关细节后面更容易混乱也更容易出现幻觉。换个说法就会好很多。比如你直接说实现 JWT 认证密码哈希用bcrypt-12refresh token 做轮换过期时间是 7 天。这样它就不用研究其他路线注意力会集中在你已经确定的实现细节上。3.2 不知道怎么实现也别把研究和落地混在一起当然现实里很多时候我们一开始也不知道最合适的实现方案。这时正确做法不是把所有事情塞进同一个会话而是拆两步先做研究任务把可选实现列出来你自己做决策或者让另一个 Agent 做决策再开一个新上下文让新的 Agent 按已定方案落地。这样做的好处非常直接研究阶段产生的大量分叉信息不会污染实现阶段。很多人觉得 Agent 不稳定根源就在这里。不是它不会写而是你让它一边探索可能性一边写最终代码还希望它始终不偏题。这要求本身就不合理。3.3 给 Agent 的不是“无限自由”而是清晰边界你手上其实像是一个很聪明的同事。它知道很多东西理解能力也不差。但如果你不明确告诉它这次只需要围绕某个具体目标工作它就会忍不住把相关、半相关和自以为相关的信息都带进来。结果就是本来你只是要一个能让人跳舞的空间设计它却开始不停跟你讲“球形物体在宇宙中有多少种用途”。4. Agent 的“讨好型设计”会系统性地影响结果4.1 你怎么问往往决定它会朝哪个方向编没有人会喜欢一个总是顶嘴、老说你错了、或者完全不听指令的产品。所以这一代 Agent 在设计上天然倾向于配合用户、顺着用户。这正是它好用的原因但也会带来副作用。如果你对它说“去代码库里给我找一个 bug。”那它大概率会尽力给你找出一个 bug。极端一点它甚至可能会把某些模棱两可的问题解释成 bug因为它知道你想看到“找到了”。很多人把这类现象笼统归为幻觉但说到底输入方式本身就在诱导结果。4.2 中性 prompt 往往更可靠我更偏向用中性的提示词。与其说“在数据库里找 bug”不如说“把数据库相关代码过一遍顺着每个组件的逻辑看下去把你发现的情况都汇报回来。”这样的 prompt 有时候会报出 bug有时候不会。但至少它没有在任务定义阶段就强行暗示“这里一定有问题”。4.3 也可以反过来利用这种特性如果你理解 Agent 天生倾向于取悦用户其实也可以把这个特性变成工具。一个典型做法是三方博弈先让一个“找 bug 的 Agent”尽量多找问题再让一个“对抗 Agent”尽量反驳这些问题最后让一个“裁判 Agent”对两边的论证做评分。我会故意把激励机制讲得很明确。比如找 bug 的 Agent低影响问题 1 分中等影响 5 分关键问题 10 分。这样它会明显更激进产出一个“所有可能问题的超集”。接着给对抗 Agent 另一套规则每成功推翻一个误报就拿到对应分数但如果推翻失败要倒扣两倍。这样它会积极质疑但又不敢完全胡来最后形成一个更收敛的子集。裁判 Agent 再把两边结果对齐。这个流程并不能保证百分之百准确但在很多复杂审查任务上质量会明显高于单 Agent 直接给答案。5. 判断“什么有用”其实不用天天追热点这个问题表面看起来很难好像必须每天追模型更新、追收购新闻、追各种实验项目才能知道哪些能力值得学。我现在的判断标准反而很简单如果 OpenAI 和 Anthropic 都在做或者都在把同类能力往产品里收那大概率就是值得重视的。skills 现在已经成了 Claude 和 Codex 的官方能力之一。规划planning从社区经验变成产品默认路径。memory、voice、remote work 也在陆续进入主流工作流。相反很多一度很热、但只是为临时问题打补丁的技巧模型一升级就失效了。比如某些 stop-hook 以前特别重要因为 Agent 一旦遇到长任务就很容易中途放弃等模型更愿意持续执行之后这类补丁的价值会迅速下降。所以不需要把大量精力耗在“我要不要学最新那个花活”上。多数时候定期更新你的 CLI 工具然后认真看看 release note新能力到底解决了什么问题就够了。6. Agent 一旦开始“填空”质量通常会明显下降有些时候你会觉得 Agent 像天才有些时候又会怀疑自己为什么会相信它。两种状态的差别往往就在于它有没有被迫做假设。当前这代 Agent 在“连接省略信息”“替你补足隐含前提”“根据少量线索自动推断正确意图”这些事情上整体还不够稳定。一旦开始补空白质量通常就会掉。所以我很重视一个简单规则每次压缩上下文或重新进入任务前先让 Agent 回读任务计划再回读相关文件。这听起来没什么技术含量但很有效。因为它减少了模型靠记忆残影做判断的概率让它重新落到当前任务的事实上。7. 任务为什么总是做一半就停因为 Agent 不知道什么时候算完成7.1 人知道“差不多了”Agent 往往不知道对人来说任务什么时候完成通常是非常自然的判断。对 Agent 来说不是。它通常知道怎么开始却不总是知道怎么收尾。这就是为什么很多任务最后会停在一个让人很难接受的状态它写了一堆 stub跑了一下觉得“应该差不多”然后就结束了。7.2 测试是最好的任务终点之一测试的价值在于它足够确定。你可以把要求写得非常明确这 X 个测试没通过任务就不算完成而且不允许改测试本身。这样一来终止条件对 Agent 来说就变得具体了。只要测试通过你再做一轮人工抽查心里会踏实很多。7.3 截图和验证也正在变成可用的结束条件对前端或交互型任务来说截图验证现在也越来越实用了。你可以让 Agent 一直迭代到测试通过然后再补一个步骤截屏检查界面行为或者设计结果是不是符合预期。这样就能避免它“第一次做完就收工”。7.4 最稳妥的方法是把终止条件写成合同更进一步可以直接给 Agent 一份{TASK}_CONTRACT.md。里面把这个任务真正完成前必须满足的条件写清楚比如哪些测试必须过哪些截图必须检查哪些验证动作必须执行哪些文件不能改。一旦终止条件被显式写出来Agent 停下来的时机就会稳定很多。8. 长时间运行的 Agent 不一定更好很多人关心“怎么让 Agent 连续跑 24 小时还不跑偏”。一种常见方案是 stop-hook如果{TASK}_CONTRACT.md还没全部完成就禁止会话终止。这个做法在某些自动化场景里是有用的尤其是你有很多定义非常清晰的合同任务时。但我自己并不觉得“超长会话”是默认最优解。原因也很简单会话越长上下文越容易混入无关任务的信息。这和前面说的上下文膨胀是同一件事只不过规模更大。我更认同的方式是一个合同一个新会话。需要做什么就生成一个明确任务需要新的工作单元就新开一个 session让编排层负责创建任务和分发任务。这样上下文更干净漂移也更可控。9. 真正长期有效的积累不是框架而是规则和 skills9.1 规则用来约束不要做什么如果你不希望 Agent 做某件事就把它写成规则。然后在CLAUDE.md里告诉它进入某类场景之前先读哪份规则文件。例如写代码前读coding-rules.md写测试前读coding-test-rules.md测试失败时读coding-test-failing-rules.md。规则完全可以嵌套也可以按条件触发。我非常认同一个做法把CLAUDE.md当成“上下文路由目录”而不是把所有细节一股脑写进去。它更像一个 if-else 导航层告诉 Agent 在什么场景下该去哪里找对应上下文。9.2 skills 用来沉淀“怎么做”如果规则更像“别这么做”那 skills 更适合表达“这类事该怎么做”。当你发现某类任务已经有比较稳定的做法最好的沉淀方式不是每次重新解释而是把流程写进 skill。甚至如果你一开始并不确定某个问题该怎么解也可以先让 Agent 做一轮研究把它认为可行的方法整理出来再人工修订成 skill。这样等下次再遇到类似问题时执行路径就会稳定很多。9.3 规则和 skills 不是越多越好问题也出在这里。你不断加规则、不断加 skills短期内确实会感觉越来越顺手像是在给 Agent 训练出个性和偏好。但加到一定程度以后性能又会下降。原因通常有两个规则之间开始互相冲突需要预读的内容越来越多上下文再次膨胀。如果一个编程任务开始前要先读 14 份 Markdown 文件基本已经说明这套体系该清理了。所以这件事不是“堆得越多越强”而是要定期做整理、合并、删冲突让规则和 skills 回到可维护状态。10. 最后结果仍然要你自己负责今天的 Agent 已经很强但还远远没到“你可以完全不管结果”的阶段。设计可以交给它研究可以交给它实现也可以交给它很大一部分但最终结果还是得你自己兜底。这不是缺点而是当前阶段最现实的合作方式。你要做的不是神化它也不是轻视它而是给它干净的上下文、明确的边界、清楚的终点然后对结果负责。如果这几件事做到位Agent 的表现通常会比大多数人想象的更稳定。也更像一个能长期协作的工程搭子。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用大模型作为其中的重要组成部分正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力广泛应用于自然语言处理、计算机视觉、智能推荐等领域为各行各业带来了革命性的改变和机遇。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】

收藏 | 新手程序员必看：如何有效利用大模型，告别无效纠缠

最新文章

ODrive 0.5.6源码编译实战：从环境配置到烧录调试（STM32F4平台）

发散创新：基于Go语言的故障演练自动化框架设计与实战在现代分布式系统中，高可用性

基于STC89C52与蜂鸣器实现模块化音乐播放器（小星星）

终极指南：如何使用开源硬件管理工具Lenovo Legion Toolkit优化拯救者笔记本性能

从分片到完整视频：Python m3u8下载器的技术解码与应用指南

Python m3u8下载器终极指南：轻松解密加密流媒体视频

推荐文章

FastAPI单元测试实战：别等上线被喷才后悔，TestClient用对了真香！盐

实战解析：Bidirectional LSTM在NLP任务中的高效应用

PID控制算法实战：如何用积分分离解决系统超调问题（附MATLAB代码）

Python asyncio 并发文件处理方案

Matlab+Ncorr：从零搭建数字图像相关分析环境

三菱FX5S PLC程序与MCGS昆仑通态触摸屏集成：伺服压力机实时监控与历史数据管理

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

工业电源模块选型参考： AS10-26S12 与 APSW10-12 封装兼容解析

KMS_VL_ALL_AIO：3步解锁Windows和Office完整功能的智能方案

互联网舆情分析系统：Nanbeige 4.1-3B实现情感分析与报告生成

devops系列(六) Kubernetes 入门实战：容器多了怎么管

大模型入门必看：从RAG到Agent化系统升级，小白也能轻松掌握（收藏版）

目标检测与跟踪（Debug）-- 问题集锦

深入解析：如何为国民技术N32L系列MCU编写高可靠性的IIC软件模拟驱动（以AHT10为例）

RMBG-2.0非遗保护实践：皮影/剪纸图像精细边缘提取，支持数字化存档标准

5分钟搞定说话人识别：科哥CAM++系统保姆级使用教程

Ubuntu 22.04 下 RealSense D455 与 ROS2 Humble 的深度集成实战

Kotlin协程库版本适配指南：从标准库到Android支持的完整解析

【技术综述】MedIAnomaly：医学图像异常检测三大范式深度解析与实战指南

收藏 | 新手程序员必看：如何有效利用大模型，告别无效纠缠

最新文章

ODrive 0.5.6源码编译实战：从环境配置到烧录调试（STM32F4平台）

**发散创新：基于Go语言的故障演练自动化框架设计与实战**在现代分布式系统中，**高可用性**

基于STC89C52与蜂鸣器实现模块化音乐播放器（小星星）

终极指南：如何使用开源硬件管理工具Lenovo Legion Toolkit优化拯救者笔记本性能

从分片到完整视频：Python m3u8下载器的技术解码与应用指南

Python m3u8下载器终极指南：轻松解密加密流媒体视频

推荐文章

FastAPI单元测试实战：别等上线被喷才后悔，TestClient用对了真香！盐

实战解析：Bidirectional LSTM在NLP任务中的高效应用

PID控制算法实战：如何用积分分离解决系统超调问题（附MATLAB代码）

Python asyncio 并发文件处理方案

Matlab+Ncorr：从零搭建数字图像相关分析环境

三菱FX5S PLC程序与MCGS昆仑通态触摸屏集成：伺服压力机实时监控与历史数据管理

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

发散创新：基于Go语言的故障演练自动化框架设计与实战在现代分布式系统中，高可用性