智能体进入“技能时代”：EvoSkills 展示下一代 AI工作流的雏形

张开发

• 2026/4/7 10:31:46 • 15 分钟阅读

分享文章

当我们谈论今天的智能体时很多人脑海里浮现的还是“调用工具”“写个函数”“跑个脚本”这样的画面。过去几年LLM 代理确实靠着工具调用和 API 编排一路狂飙但当它们真正走进专业领域故事就变得不一样了。工具能解决的问题越来越有限。它们像是一个个孤立的小螺丝刀能拧一颗螺丝但面对一台复杂的机器智能体需要的不再是一个工具而是一整套“操作手册”。这就是 Anthropic提出的 Agent Skills 概念的由来。技能不是一个函数而是一套多文件、多步骤、可复用的工作流里面有说明文档、有脚本、有资源文件甚至有完整的执行逻辑。它更像是一个“迷你软件包”而不是一个“函数片段”。01 智能体需要“技能自我进化”问题在于人类写技能这件事既累又不一定好用。SkillsBench 的评测结果甚至告诉我们一个有点刺耳的事实人类写的技能在某些领域不仅没帮上忙反而拖了智能体的后腿捂脸。原因其实很简单人类的思维方式和 LLM 的推理方式并不一致。我们觉得合理的流程对模型来说可能是绕远路我们觉得清晰的结构对模型来说可能是噪音。于是研究者开始尝试让模型自己进化工具、自己生成函数但这些方法很快撞上了天花板。它们只能生成单文件的小工具根本无法构建一个真正的技能包。更麻烦的是它们严重依赖 ground‑truth 测试也就是必须知道正确答案才能改进。这在真实世界里几乎不可能做到。这就是 EvoSkills 想要解决的问题。它的目标很直接让智能体自己写技能、自己测试技能、自己优化技能最终自己进化出一套高质量的技能包。整个过程不需要人工参与也不需要知道真实测试内容。换句话说它让智能体第一次具备了“自我提升专业能力”的能力。图1工具-技能差异说明。说到这里不得不提一下这项研究背后的研究团队。主力来自美国伊利诺伊大学芝加哥分校UIC这是一个在数据挖掘和智能系统领域非常强势的团队他们分别是Hanrong Zhang, Shicheng Fan, Henry Peng Zou, Yankai Chen, Zhenting Wang, Jiayu Zhou, Chengze Li, Wei-Chieh Huang, Yifei Yao, Kening Zheng, Xue Liu, Xiaoxiao Li, Philip S. YuPhilip S. Yu 是国际顶尖的大牛。另一支力量来自 MBZUAI 和 McGill这两个机构在智能系统、优化和 LLM 代理方向都非常活跃。Columbia、UBC 和浙江大学也参与其中带来了系统、医学 AI、软件工程等多领域的视角。可以说这是一个典型的跨机构、跨领域、跨国家的“豪华阵容”也难怪能做出这样一个系统级创新。02 技能与工具的本质区别为什么技能难以自动化很多人第一次听到“技能自动生成”时可能会觉得这不就是“让模型多写几个文件”吗但真正做过的人都知道这件事的难度远远超过生成一个函数。工具是单文件的它就是一个函数、一段代码、一条命令。模型只需要把逻辑写对就行。而技能是一个多文件的结构化包里面可能有 SKILL.md 作为入口说明有 Python 脚本作为执行逻辑有 JSON 模板作为资源文件还有各种辅助脚本和校验逻辑。它更像是一个小型软件工程项目而不是一个 prompt。这带来了三个非常现实的挑战。第一个挑战是多文件一致性。模型不仅要写对每个文件还要保证它们之间的引用、路径、逻辑完全一致。只要一个文件名写错整个技能就会崩。第二个挑战是工作流逻辑耦合。技能不是“写完就算”它需要在执行时跨文件协作像一个流水线一样串联起来。模型必须理解任务的整体结构而不是只写局部代码。第三个挑战是缺乏可见的 ground‑truth 反馈。真实环境里模型根本不知道测试内容是什么只能看到“通过”或“失败”两个字。没有细节没有提示没有错误行号。想靠这种反馈来改技能几乎是不可能的。这也是为什么“一次性生成技能”注定失败。模型无法在一次生成中覆盖所有边界情况也无法根据执行结果进行修正更无法避免逻辑漏洞。技能这种东西天生就需要迭代、需要验证、需要不断修补而不是“一次性写完”。图25轮进化中的技能质量提升。EvoSkills在5次进化迭代中超越了人类策划的技能。EvoSkills 的出现就是为了让智能体第一次具备“写技能 → 测技能 → 修技能 → 再测 → 再修”的能力。它让技能生成从一次性行为变成一个进化过程让智能体从“写代码”变成“写软件包”。03 EvoSkills框架总览技能与验证器的协同进化如果说前两节还停留在“为什么要做”这个层面那么从这里开始EvoSkills的真正灵魂才正式登场。它的核心思想其实很简单却又极其优雅——让技能和测试一起进化让两个独立的智能体互相施压、互相提升最终逼出一个更强的技能包。这听起来有点像两个学生互相出题、互相纠错最后一起变强。只不过在 EvoSkills 里一个学生负责写技能一个学生负责写测试两人互不串通互不抄答案完全靠实力较量。这种机制有个名字叫协同进化。技能生成器负责写技能。它会根据任务指令和已有技能版本生成一个多文件的技能包然后执行它看看能不能跑通。代理验证器负责写测试。它不会看技能内容只看技能执行后的输出然后自己生成一套测试断言像一个严格的考官一样给出失败原因、错误定位和修改建议。两者互相推动技能越写越强测试也越写越狠。最终形成一个闭环直到技能足够强大可以通过真实 oracle 的考验。图3:EvoSkills协同进化框架概述。技能生成器和代理验证器通过迭代细化协同进化。验证器提供结构化的失败反馈以推动技能提升而地面真相预言机测试只返回不透明的通过/失败信号触发测试升级并确保严格的信息隔离。在这个框架里还有一个关键角色就是真实 oracle。它不提供任何细节只告诉你“通过”或“失败”。它像是一个冷酷的最终裁判永远不给提示永远不给答案只用最简单的信号告诉你技能是否真的有效。这三者构成了 EvoSkills 的基本结构。技能生成器负责创造代理验证器负责挑刺真实 oracle 负责兜底。三者互相制衡互相促进让技能在不断的失败和修复中进化。整个进化过程可以概括成一个循环。技能执行生成输出验证器测试给出失败诊断技能生成器根据诊断修复技能修复后的技能再次执行如果代理验证器说“通过了”就交给真实 oracle 如果 oracle 说“不行”验证器升级测试再来一轮。这个循环会一直持续直到技能足够强或者达到迭代上限。04 EvoSkills如何实现技能自进化说完框架我们来看看 EvoSkills 的内部机制。研究团队在这一部分用了不少数学建模但其实核心思想并不难理解。EvoSkills 把整个任务环境建成一个 POMDP也就是部分可观测马尔可夫决策过程。简单说就是智能体看不到完整世界只能看到执行后的局部结果。状态是文件系统动作是命令和文件编辑观测是执行结果奖励是隐藏的 ground‑truth 测试在这个框架下技能 S 会影响智能体的策略 π也就是它如何在任务中行动。研究用一个公式表达了这一点意思是智能体在每一步的动作取决于它的历史轨迹 ht 和技能包 S。最终目标是找到一个最优技能 S\*让任务的最终奖励最大但问题来了真实奖励 R 是隐藏的智能体根本看不到。于是 EvoSkills 引入了代理奖励也就是代理验证器生成的测试得分这里的 ek 是验证器生成的断言x 是技能执行后的输出。技能生成器的目标就是在当前测试集 V 下最大化这个代理奖励而验证器的目标是在技能通过代理测试但没通过真实 oracle 时升级测试这两个优化过程交替进行形成协同进化。技能生成器维护一个持续增长的上下文。每次验证器给出失败诊断它都会把这些信息加入上下文然后生成下一版技能。这个上下文就像一个不断扩展的“技能开发日志”记录了所有失败、所有修复建议、所有测试结果。代理验证器则是一个完全独立的 LLM 会话。它看不到技能内容只能看到输出。这种信息隔离非常关键因为它避免了自我确认偏差确保验证器不会被技能生成器“带偏”。真实 oracle 则是整个系统的最终裁判。它只返回一个二值信号防止技能生成器过拟合代理验证器的测试。整个协同进化算法在研究中被写成了一个完整的伪代码Alg. 1但核心逻辑其实很清晰。技能 refinement测试 escalation交替优化直到收敛。技能越来越强测试越来越难最终逼出一个真正可靠的技能包。05 实验设计如何验证技能自进化的有效性当一个系统声称“能让智能体自己进化技能”光靠讲故事肯定不够。EvoSkills 的研究团队显然也深知这一点所以他们选择了一个非常硬核的评测方式把系统丢进一个真正的“技能战场”里让它和人类技能、各种自生成技能方法正面对决。这个战场叫 SkillsBench。这是目前唯一专门为“智能体技能”设计的评测集里面包含87 个任务覆盖 11 个专业领域从软件工程到科学分析从数据处理到企业流程几乎囊括了智能体在真实世界可能遇到的各种复杂场景。更关键的是每个任务都有 deterministic verifiers也就是确定性的自动化测试不需要人工评分也不存在主观判断。技能好不好跑一遍就知道。图4技能质量与SkillsBench基线的比较Claude Opus 4.6Claude Code。误差条5次运行±1 std。为了让对比更公平研究团队设置了多条基线。最简单的是无技能让智能体裸跑任务其次是人类技能也就是 SkillsBench 官方提供的人工编写技能包再往上是 Anthropic 的 Skill‑Creator这是目前最接近“自动写技能”的方法然后是一次性自生成技能和 CoT 自生成技能这两种方法都属于“模型自己写技能但不迭代”的路线。最后才是 EvoSkills也就是本文的主角。评测指标非常直接就是 Pass Rate也就是任务通过率。只要任务的所有测试都通过就算 1 分否则就是 0 分。没有模糊地带没有部分得分只有“成”或“不成”。这样的评测方式非常残酷但也非常真实。06 实验结果EvoSkills的能力跃迁如果说前面的设计还只是理论层面的创新那么实验结果就是最硬的证据。EvoSkills 的表现可以用一句话概括——不是小幅提升而是碾压式领先。在 SkillsBench 上EvoSkills 的最终通过率达到了 71.1%。这个数字本身就已经很亮眼但真正让人震惊的是它和其他方法的差距。无技能的通过率只有 30.6%EvoSkills 直接把它拉高了 40.5 个百分点。人类技能的表现是 53.5%EvoSkills 依然领先 17.6 个百分点。至于一次性自生成技能、CoT 自生成技能、Anthropic Skill‑Creator这些方法的表现都徘徊在 30% 到 34% 之间几乎和无技能没什么区别。换句话说所有“让模型自己写技能但不迭代”的方法都失败了。真正让技能变强的是 EvoSkills 的协同进化机制而不是“写技能的 prompt”。图5:SkillsBench上的跨模型技能转移能力。Claude Opus 4.6开发的技能被转移到五个提供商的另外六个模型中。每对条形图显示无技能基线红色和有技能通过率蓝色。增量注释表示绝对改进。所有模型都受益匪浅36-44pp这证实了进化的技能编码的是可重用的任务结构而不是特定于模型的工件。为了进一步验证系统的关键组件研究团队做了消融实验。结果非常清晰只要把代理验证器拿掉性能立刻掉到 41.1%。如果再把技能的结构化包装去掉性能更是直接崩盘。这说明两件事。第一验证器是整个系统的灵魂没有它的反馈技能根本无法进化。第二技能必须是结构化的多文件包而不是一段 prompt 或一个函数。图6:SkillsBench上的每个域通过率。使用Claude Opus 4.6对11个专业领域的三种情况进行了比较无技能基线、人工策划技能和EvoSkills自我进化技能。括号中的数字表示任务计数。在11个领域中有9个领域的自我进化技能优于人类策划的技能。箭头突出了自然科学在自然科学中人类策划的技能会降低表现而自我进化的技能会带来实质性的收益这证明了人机认知失调。更有意思的是跨模型迁移实验。研究团队把 Opus 4.6 进化出来的技能包直接迁移到六个完全不同的模型上包括 GPT‑5.2、Claude Sonnet、Haiku、Qwen3‑Coder、DeepSeek V3 和 Mistral Large。结果非常惊人所有模型的性能都提升了 36 到 44 个百分点。这说明技能包里编码的不是某个模型的偏好而是任务本身的结构和逻辑。换句话说技能是跨模型的“通用能力模块”。在不同领域的表现上EvoSkills 的提升也非常明显。尤其是在软件工程、数据分析、科学计算这些复杂任务上技能带来的增益最为显著。这也从侧面证明了一个事实越复杂的任务越需要技能而不是 prompt。07 智能体写出比人类更好的技能看到这里很多人可能会问一个问题为什么智能体自己写的技能反而比人类写的更好原因其实很简单。智能体比我们更了解自己的推理方式。人类写技能时总是按照自己的逻辑来设计流程但模型的推理路径和人类完全不同。模型自己写的技能更贴合它的思维方式。代理验证器提供了密集反馈。人类写技能时往往只能靠经验和直觉而验证器可以根据执行结果生成结构化的失败诊断告诉技能生成器哪里错了、为什么错、怎么改。协同进化避免了过拟合。真实 oracle 只给二值信号验证器又是独立的这种双重隔离让技能无法“投机取巧”只能真正变强。技能包的结构化设计带来了可复用性和可解释性。多文件结构让技能更像一个小型软件工程项目而不是一段 prompt这让它更稳定、更通用也更容易迁移。综合来看EvoSkills 不是让模型“写技能”而是让模型“学会如何写技能”。这两者之间的差距就像“写一篇作文”和“学会写作”之间的差距一样大。END参考资料https://arxiv.org/pdf/2604.01687关于波动智能——波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系融合人工智能与意识科学构建覆盖情绪识别、建模与推荐的智能引擎自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构赋能企业实现更高效的用户洞察与精准情绪交互推动从功能驱动到意图驱动的产业范式升级。亲爱的人工智能研究者为了确保您不会错过*波动智能*的最新推送请星标*波动智能*。我们倾心打造并精选每篇内容只为为您带来启发和深思希望能成为您理性思考路上的伙伴加入AI交流群请扫码加微信

智能体进入“技能时代”：EvoSkills 展示下一代 AI工作流的雏形

最新文章

富士达电梯调试软件Flash Rom2.0、PMC调试维修软件2.34和EEC辅助维修软件2...

YOLOv11算法优化实战：从特征融合到动态推理的性能跃迁

Gymnasium 0.26.2保姆级教程：从安装到第一个强化学习Demo（附常见报错解决）

在Mac上体验本地AI绘画：Mochi Diffusion如何改变你的创作流程

南麟LN1164 低压差线性稳压器芯片多种封装形式

【云藏山鹰代数信息系统】云藏山鹰逻辑图形图像学基础上下文管理器知识图谱与技术浅析2

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

告别信息孤岛，一站式系统打造企业数字化新生态

Win11家庭版也能玩转WSL！手把手教你搞定Linux子系统与轻量级XFCE桌面（含Hyper-V替代方案）

5大突破掌握文件解析利器：从数据提取到跨领域创新

软考网络与信息安全这5分怎么拿？我用这10个高频考点帮你搞定

保姆级教程：用AnyLogic轨道库快速搭建你的第一个地铁线路仿真模型

ROFL-Player：英雄联盟回放分析工具的终极指南，快速查看任何版本比赛录像

从零开始掌握哔哩下载姬Downkyi：构建个人视频库完全指南

像素自由：SRWE实现窗口分辨率精准控制的技术突破与行业应用

电子工程师必看：TTL与CMOS电平标准全解析（附实测数据对比）

HoloLens AR开发指南：使用Unity和Vuforia打造混合现实体验（最新配置详解）

云容笔谈·东方红颜系统重装后恢复指南：快速重建GPU深度学习环境

如何用XUnity.AutoTranslator解决游戏语言障碍？3个维度解锁无缝汉化体验

智能体进入“技能时代”：EvoSkills 展示下一代 AI工作流的雏形

最新文章

富士达电梯调试软件Flash Rom2.0、PMC调试维修软件2.34和EEC辅助维修软件2...

YOLOv11算法优化实战：从特征融合到动态推理的性能跃迁

Gymnasium 0.26.2保姆级教程：从安装到第一个强化学习Demo（附常见报错解决）

在Mac上体验本地AI绘画：Mochi Diffusion如何改变你的创作流程

南麟LN1164 低压差线性稳压器芯片 多种封装形式

【云藏山鹰代数信息系统】云藏山鹰逻辑图形图像学基础上下文管理器知识图谱与技术浅析2

推荐文章

Flutter Shader 效果：GPU 加速的视觉盛宴

python copy

2026最新微软常用运行库合集下载安装教程

嵌入式RTP协议栈：面向实时音频的低延迟传输设计

MicroToolbox：嵌入式C语言轻量级固件工具箱

Keil多工程工作空间管理与实践技巧

相关文章

ESP32智能语音助手开发瓶颈突破：基于MCP协议的全栈硬件AI解决方案重构

turboacc：开源工具性能优化的创新方法 - OpenWrt用户指南

LibreCAD：为什么这款免费开源的2D CAD软件能替代昂贵的商业工具？

解锁AI编程新范式：7个颠覆认知的Continue插件实战场景

LA-PEG-SCM，硫辛酸PEG琥珀酰亚胺乙酸酯，一种新型异双功能PEG衍生物

从‘能用’到‘好用’：设计运放电路时，90%的人会忽略的输入/输出阻抗问题（以TI OPA2188为例）

分享文章

更多文章

南麟LN1164 低压差线性稳压器芯片多种封装形式