浙大美团联合发布 SKILL0 全解(非常详细),Agent 技能内化原理从入门到精通,收藏这一篇就够了!

张开发
2026/4/6 3:47:43 15 分钟阅读

分享文章

浙大美团联合发布 SKILL0 全解(非常详细),Agent 技能内化原理从入门到精通,收藏这一篇就够了!
一句话讲清楚浙江大学REAL实验室联合美团、清华大学提出SKILL0框架首次将Agent技能内化到模型参数中训练时借助技能引导推理时完全零依赖在ALFWorld和Search-QA上分别比标准RL基线提升9.7%和6.6%同时每步token消耗降至0.5k以下仅为SkillRL的1/5。背景Agent技能的困境——模型只是在照着念当前LLM Agent的主流做法叫推理时技能增强Inference-time Skill Augmentation从技能库检索相关文件塞进模型的上下文窗口当指导。Claude Code、OpenClaw等框架都在用这套方案。问题出在三个地方检索噪声。语义检索不完美灌进来的技能文件可能跟当前任务八竿子打不着反而污染了Agent的上下文。Token开销大。技能文件本身就是长文本多轮交互下来历史记录越积越多上下文窗口迅速膨胀。推理成本上去不说还容易触发中间信息丢失Lost in the Middle问题。模型从未真正学会。在Prompt里跟着技能描述执行的模型只是照着念。能力长在上下文里没长在参数里。就像考试允许带参考书——分数好看合上书就不会了。SKILL0想解决的就是这个问题能不能把技能内化到模型参数里推理时完全不需要检索技能文件零样本自主完成任务技能增强方法a需要在推理时检索技能并注入上下文而SKILL0的技能内化方法b在训练后推理时完全不需要技能文件。SKILL0核心方法三招实现技能内化SKILL0全称In-Context Agentic Reinforcement Learning for Skill Internalization核心思想一句话“训练时有技能推理时零技能”Skills at training, zero at inference。三个关键机制1. 上下文渲染Context Rendering把文本变成图片Agent处理复杂任务时交互历史和技能文件会累积大量文本。SKILL0借鉴AgentOCR的思路把文本上下文包括交互历史 和检索到的技能 渲染成紧凑的RGB图像再通过视觉编码器压缩为视觉表示其中 是压缩比率策略在每步自行生成。视觉表示 作为压缩后的上下文嵌入输入给策略Token开销大幅减少决策所需的结构信息也保留了下来。2. 上下文强化学习ICRL训练时给引导推理时全移除ICRL的训练逻辑训练阶段Agent rollout时获得完整的技能上下文引导帮助学习复杂多步行为推理阶段技能上下文完全移除Agent靠自身参数中内化的知识独立完成任务为了让模型同时优化任务成功率和压缩效率SKILL0设计了复合奖励函数如果任务成功否则其中 评估Agent是否在技能增强下正确完成任务 控制任务性能与压缩效率的权衡。对数形式反映了高压缩率的边际收益递减。训练目标函数为其中优势 通过对组内采样的总奖励 进行归一化计算。3. 动态课程学习Dynamic Curriculum逐步撤走拐杖SKILL0不是突然移除所有技能而是渐进式撤除。分两个阶段(a) 相关性驱动的技能分组训练前将验证集划分为 个子任务T ∗ k ∗ k 1 N 每个子任务 T _ k 对应一个技能文件 S _ k {\mathcal{T}*k}*{k1}^{N}每个子任务\mathcal{T}\_k对应一个技能文件\mathcal{S}\_kT∗k∗k1N每个子任务T_k对应一个技能文件S_k。离线分组确保每个技能文件都有专属子任务来评估效用。(b) 有用性驱动的动态课程训练过程分为 个渐进阶段技能预算 线性衰减在每个阶段 每隔 个训练步骤系统评估每个技能文件的有用性 即有技能和无技能两种条件下在对应验证子任务上的准确率差值。然后过滤只保留 的技能即当前策略仍能从中受益的排序按 降序排列选择选取前 个技能文件随着训练推进技能预算逐渐归零最终Agent在完全无技能上下文的情况下运行。SKILL0整体框架概览。a相关性驱动的技能分组b带有技能增强Agent loop的上下文强化学习c训练过程中的动态课程学习。实验结果主实验结果SKILL0在ALFWorld和Search-QA两大基准上评估基座模型用Qwen2.5-VL系列的3B和7B版本。ALFWorld任务家庭环境文本游戏六类子任务Pick、Look、Clean、Heat、Cool、Pick2SKILL03B达到87.9%平均成功率比AgentOCR78.2%提升9.7%SKILL07B达到89.8%超越GRPO81.8%、AgentOCR81.2%等RL基线SKILL0在推理时不使用任何技能文件的情况下性能与需要技能增强的SkillRL82.4%/89.9%相当甚至更优Search-QA任务NQ、TriviaQA、PopQA等7个搜索增强问答数据集SKILL03B达到40.8%平均准确率比AgentOCR34.2%提升6.6%SKILL07B达到44.4%超越所有RL基线方法ALFWorld Avg↑ALFWorld Cost↓Search-QA Avg↑Search-QA Cost↓Zero-Shot (3B)15.21.21k15.90.48kGRPO (3B)79.91.02k36.40.61kAgentOCR (3B)78.20.38k34.20.26kSkillRL† (3B)82.42.21k38.90.87kSKILL0 (3B)87.90.38k40.80.18kSKILL0 (7B)89.80.41k44.40.34k† 表示推理时使用技能增强Token效率视觉上下文建模加技能内化SKILL0每步平均Token消耗很低3B模型在ALFWorld上消耗0.38ktokens/stepSkillRL需要2.21k5.8倍差距3B模型在Search-QA上消耗0.18ktokens/stepSkillRL需要0.87k4.8倍差距实际部署时SKILL0的推理成本大幅低于需要持续检索技能的方案。训练动态分析技能内化的证据奖励曲线整个RL优化过程中SKILL0在3B和7B两个基座上都保持了比AgentOCR基线更高的奖励曲线。Qwen2.5-VL-3B上的训练动态对比SKILL0的奖励曲线始终高于AgentOCR基线。Qwen2.5-VL-7B上的训练动态对比SKILL0同样保持领先。技能内化趋势验证论文通过三组对比验证技能确实被内化到了模型参数中(a) 有技能 vs 无技能验证训练过程中有技能增强时模型早期性能提升更快无技能验证初始性能较低但逐渐追赶上来最终接近有技能的水平——这是技能内化的信号。(b) SKILL0 vs AgentOCR均无技能推理在无技能推理设置下SKILL0仍然超越AgentOCR说明性能优势来自内化知识。© SKILL0 vs GRPO vs SkillRL均无技能推理GRPO和SkillRL在训练早期就达到平台期SKILL0持续进步最终达到最高性能上限。训练动态对比。aSKILL0有/无技能增强的验证性能对比bSKILL0与AgentOCR在无技能推理下的对比cSKILL0与GRPO、SkillRL在无技能推理下的对比。有用性动态先升后降SKILL0动态课程中每个技能的有用性 呈现一致的先升后降模式早期有用性较低策略还没学会利用技能Prompt中期策略逐渐学会基于技能上下文行动有用性上升后期动态课程减少技能预算策略将技能知识内化到参数中 回归到零这条轨迹验证了ICRL和课程学习的协同机制——技能作为临时脚手架策略优化完成后被拆除。各子任务的有用性 训练动态呈现一致的先升后降模式验证了技能内化过程。消融实验技能预算设计论文对比了多种技能预算策略Fixed Full始终使用全部技能移除技能Prompt后性能崩溃-12.3%[6,6,6]固定高预算移除后崩溃-13.3%[3,3,3]固定低预算早期探索受限学习不稳定[0,0,0]零技能缺乏引导性能最差SKILL0的[6,3,0]线性衰减移除技能后反而获得1.6%的正向迁移不同技能预算策略的消融对比SKILL0的[6,3,0]线性衰减策略在无技能推理下表现最佳。训练过程中不同技能预算策略的动态对比。动态课程三步骤过滤-排序-选择三步策略的必要性完整三步策略无技能推理下达到87.9%且是唯一实现正向迁移Δ1.6%的设置去掉过滤w/o Filter引入上下文噪声性能下降2.7%随机选择w/o Rank严重崩溃Δ-13.7%降至62.9%保留严格有用的技能对稳定策略学习至关重要子任务训练动态论文还展示了ALFWorld各子任务和Search-QA各技能类别的详细训练动态。SKILL0在Qwen2.5VL-3B上ALFWorld各子任务的训练动态。SKILL0在Qwen2.5VL-3B上Search-QA各技能类别子任务的训练动态。意义与展望SKILL0提出了一条Agent训练的新路径从依赖外部知识走向内化到参数。跟人类学习技能的过程类似——初学者看说明书熟练后凭直觉操作。Claude Code、OpenClaw等Agent生态发展很快Skill机制成了标准配置。但SKILL0提了个问题如果Agent永远需要检索技能文件才能工作跟查字典的学生有什么区别SKILL0的做法是训练时渐进引导让模型真正学会而不是照着做。推理时零技能依赖Token成本降下来Agent也有了真正的自主能力。局限在于目前只在ALFWorld和Search-QA两个基准上验证GUI自动化、代码生成等更复杂的多模态Agent场景还有待探索。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章