【大模型智能体】【Harness Engineering】Natural-Language Agent Harnesses

张开发
2026/4/4 22:53:00 15 分钟阅读

分享文章

【大模型智能体】【Harness Engineering】Natural-Language Agent Harnesses
摘要智能体性能日益依赖于约束工程然而约束设计通常深嵌于控制器代码与运行时特定规范中难以作为科学对象进行转移、比较和研究。我们提出智能体的高层控制逻辑能否被外化为一种可移植的可执行制品我们引入了自然语言智能体约束体系通过可编辑的自然语言表达约束行为并构建了智能约束运行时——这是一个通过显式契约、持久化制品与轻量适配器来执行约束的共享运行时环境。在编程与计算机操作基准测试中我们对运行可行性、模块消融以及代码到文本的约束迁移进行了受控评估。1.引言现代智能体的成败日益取决于其外围架构即一套结构化多步推理、工具使用、记忆、任务委派与终止机制的控制栈其功能远超单次模型调用。大量研究表明外化的控制模式往往具有决定性作用例如推理-行动循环Yao et al., 2023、检索增强生成Lewis et al., 2021以及显式自我反馈机制Shinn et al., 2023。近期研究进一步拓展了这一领域涵盖显式记忆与自我演化Zhang et al., 2026、工作流生成Li et al., 2024; Zheng et al., 2025、多智能体协同编排Fourney et al., 2024; Wang et al., 2025b; Ke et al., 2026; Costa, 2026; Xia et al., 2026以及接口级测试时扩展与原生工具执行Muennighoff et al., 2025; Wang et al., 2024b; HKUDS, 2026。与此同时长上下文与长视野的研究场景揭示控制栈——包括状态管理、上下文策展与上下文文件———即使基座模型固定也可能成为性能瓶颈Liu et al., 2024; Chroma Research, 2025; Tang et al., 2025, 2026a,b; Sun et al., 2025; Su et al., 2026。同样的压力也出现在支架感知评估和日益严苛的推理场景中。在这些情况下即使基座模型固定支架与工具链的差异仍可能主导最终结果Ding et al., 2026; An et al., 2025; Zhan et al., 2026b,a。图1现代智能体采用的线束设计模式示例推理-执行、检索、反思、验证、记忆、搜索、编排。这一转变将“提示工程”重新定位为更广泛的上下文工程实践决定在长流程的每个步骤中应提供哪些指令、证据、中间产物及状态。实践者报告强调当任务跨越多个上下文窗口时稳健进展的关键不在于单次提示的措辞而更依赖于持久的状态界面、验证节点以及清晰的职责边界Anthropic, 2024, 2025a,b; Bui, 2026。秉承同样的思路近期关于架构工程的讨论也将架构视为一等系统对象而非模型的浅层封装OpenAI, 2026a; LangChain, 2026a,b, 2025。问题。 尽管安全约束设计的重要性日益增长但约束逻辑却很少作为一个连贯、可移植的构件被明确呈现。在大多数智能体系统中实际生效的约束逻辑分散在控制器代码、隐藏的框架默认设置、工具适配器、验证脚本以及运行时特定假设之中Lou et al., 2026; Shi et al., 2025; Chivukula et al., 2025; Wang et al., 2025a; Zhang et al., 2025。其结果是约束设计难以在不同运行时之间迁移难以进行公平比较也难以进行清晰的消融实验两个仅在名义上存在单一设计差异的系统往往同时也在提示词、工具中介、构件约定、验证门控和状态语义上存在不同Liang et al., 2025; Cheng et al., 2025。这导致评估退化为对控制器整体捆绑包的比较而非模块层面的证据对比。动机。诸如 AGENTS.md 与技能包等自然语言制品表明实用系统可以将仓库本地的惯例与可复用的程序打包成可移植的文本AGENTS.md, 2026; AgentSkills, 2026。近期研究进一步将这些制品视为可通过经验驱动技能创建、上下文工程技能演化、可复用程序记忆与跨任务技能评估进行学习和基准测试的对象Hao et al., 2026; Ye et al., 2026; Mi et al., 2026; Zhang et al., 2026; Li et al., 2026b。然而这些工作所确立的是在可复用控制知识层面的可行性而非一种显式的、可执行的执行框架表示。它们通常附加本地指令或可复用例程但并未将框架级的契约、角色边界、状态语义、故障处理以及面向运行时的适配器作为一等公民并在一个共享运行时下实现联合执行。这一差距并非弥合了我们的研究背景而是恰恰构成了其动机我们将自然语言从可复用程序的载体提升为一种显式的、可执行的框架对象。论文课题与方法。我们探讨的问题是智能体封装框架内部的设计模式层能否在共享运行假设下被显式地构建为一种可执行的自然语言对象。我们提出一自然语言智能体封装框架这是一种与显式契约及制品载体绑定的、结构化的、用于描述封装控制的自然语言表示二智能封装运行时它可直接解释自然语言封装框架并将共享运行时宪章与任务族封装逻辑分离开来。贡献形式化定义我们将工具层设计模式明确形式化为一个独立于运行时策略与底层执行钩子的显式表示对象。表示要素我们规定了可执行自然语言工具必须暴露的组件合约、角色、阶段结构、适配器、脚本、状态语义以及故障分类法。共享智能运行时我们提出了智能工具运行时这是一种循环内大型语言模型运行时可直接解释工具逻辑同时将运行时章程与工具逻辑清晰分离。受控实证我们在编程与计算机使用基准测试上就共享运行时行为效应、模块组合/消融以及配对代码到文本迁移保真度这三个研究问题进行了受控实验。2.方法2.1 驾驭与模式层我们使用“控制框架”一词来指代协调层该层负责管理针对某一任务族的多轮模型或智能体调用。一个控制框架具体规定(i) 控制机制工作如何被分解与调度(ii) 合约必须产出何种成果、必须满足哪些门限条件、以及运行应在何时停止(iii) 状态哪些信息必须在不同步骤、分支及代理工作单元之间持久保持。上下文工程指的是为单次调用设计即时提示词及检索上下文控制框架不仅包含此部分还负责管理多步骤结构、工具协调、结果验证以及持久状态Anthropic, 2025a,b。驾驭harness与运行时runtime之间的边界是分析性的而非绝对性的。在实践中某些通用服务工具适配器、沙箱化、子生命周期管理可能位于运行时中而任务族策略阶段、制品契约、验证器则驻留在驾驭中。为使研究清晰我们明确划定了此边界我们的目标是在共享运行时假设下对驾驭模式逻辑进行比较、迁移与消融分析。2.2 智能驾驭运行时由于自然语言行动方案以自然语言编写执行过程需要解释。因此人机即时交互运行时将大语言模型置于运行时循环内部在每一步中模型读取i运行框架ii当前状态与环境以及iii运行时宪章随后根据合约与预算约束选择下一个行动。我们将IHR分解为三个组成部分图2(1) 用于解释约束逻辑的循环内大型语言模型(2) 提供终端工具和一流多智能体接口的后端例如生成与监督子智能体、接收返回的产物以及(3) 定义合约语义、状态、编排和子智能体生命周期的运行时章程。在我们的实验中子智能体管理使用了后端的多智能体工具接口如spawn_agent、wait_agentOpenAI2026c。图2框架概览。智能治理运行时IHR通过循环内嵌大语言模型、具备工具访问与子智能体支持的后端、以及规定策略与语义的运行时章程在任务实例上执行自然语言智能体治理框架NLAH该框架对外提供治理逻辑、角色、合约、适配器及状态约定。2.3 自然语言智能体赋能框架NLAH自然语言智能体赋能框架是一种结构化的自然语言表示形式专为由IHR执行的线束控制而设计。自然语言并不取代底层确定性代码而是承载可编辑、可检视的编排逻辑同时通过适配器和脚本提供确定性钩子测试、代码检查器、抓取器、验证器。我们的框架明确了以下核心组件• 合约必需输入与输出、格式约束、验证节点、权限边界、重试与停止规则。• 角色职责不重叠的角色提示求解器、验证器、研究者、编排器。• 阶段结构明确的工作流拓扑例如规划 → 执行 → 验证 → 修复。• 适配器与脚本用于确定性操作的命名钩子测试、验证器、检索、解析。• 状态语义跨步骤持久化的内容工件、账本、子工作区及其重启方式路径、清单。• 故障分类驱动恢复机制的命名故障模式工件缺失、路径错误、验证器故障、工具错误、超时。2.4 作为显式模块的文件支持状态长周期自主系统在实践中常因关键状态保持隐性或瞬时性而失效。近期上下文折叠研究同样将显性上下文管理视为关键通过将已完成的子轨迹或对话历史压缩为可复用的摘要与日志来实现Sun et al., 2025; Su et al., 2026。为此我们研究了一种可选的文件支持状态模块该模块将持久状态外化为路径可寻址的实体从而提升了系统在上下文截断与分支场景下的稳定性Anthropic, 2025b; Liu et al., 2024; Chroma Research, 2025。从操作层面看该模块强化了三个特性外部化状态被写入工件而非仅存于临时上下文中、路径可寻址后续阶段可通过路径重新打开同一对象以及压缩稳定性状态在截断、重启和委托后仍可保留。附录B提供了本实验采用的规范工作空间及文件角色映射表。图3实现映射后端 运行时技能章程 工具技能任务族逻辑。3.实验设计3.1 研究问题我们评估在共享运行时假设下线束模式逻辑能否成为可执行且可分析的对象。• RQ1行为效应。在固定预算下共享运行时章程与特定于基准测试的线束逻辑如何改变智能体行为与任务结果• RQ2可组合性。一旦模式显式化模块能否在模式层面进行组合与消融• RQ3迁移。在共享运行时下原生代码线束与重构的自然语言线束之间还存在哪些差异3.2 实例化在我们的实例化中后端由具备终端工具和多智能体接口的Codex实现共享运行时章程由一个固定的运行时技能承载而基准测试特定的工具逻辑则由工具技能承载OpenAI, 2025, 2026b。这种因式分解允许进行受控的消融研究。共享运行时策略与特定基准的测试框架逻辑。附录C总结了所有IHR运行中使用的共享运行时技能。3.3 基准与线束系列我们在两个需要多步骤控制、工具使用、持久状态积累以及验证或证据管理的代表性基准系列上进行评估。编码方面。SWE-bench Verified 评估基于代码仓库的问题解决能力其主要指标是问题解决率Jimenez et al., 2024; Chowdhury et al., 2024。我们研究了包括 TRAE 风格的多候选搜索Team et al., 2025和 Live-SWE-AgentXia et al., 2025在内的编码测试框架系列。计算机使用方面。OSWorld 评估基于真实桌面环境的计算机使用行为其主要指标是任务成功率Xie et al., 2024。我们研究了作为计算机使用智能体整体测试框架的 OS-SymphonyYang et al., 2026。3.4 实验设置所有实验均采用相同的IHR实例化配置Codex CLI版本0.114.0、模型GPT-5.4OpenAI, 2026b及推理强度xhigh。实验在Ubuntu 24.04服务器上运行配置为64个CPU核心与251 GiB内存。为提升可复现性与沙箱安全性所有运行均在Docker容器内执行。各任务容器的资源上限设置为32个虚拟CPU、84 GiB内存及40 GiB存储空间。受预算所限本文汇报的是基于固定随机种子单次抽样的基准子集结果而非完整测试套件的结果。当前子集包含125个SWEbench Verified样本和36个OSWorld样本。我们计划使用GPT5.4-mini重新运行全部基准测试并在未来的修订版中更新报告结果。4.结论4.1 研究问题一行为效应RQ1旨在验证共享运行时框架与基准测试专用驱动逻辑是否会显著改变固定预算下的智能体行为与任务结果。首项结果表明过程性指标的变动幅度远大于解决率的变化。在SWEbench Verified测试集上TRAE与Live-SWE两行的性能保持狭窄波动区间而完整IHR方案在代码生成量、调用次数和运行时间上产生的变化远超两种消融方案。因此对RQ1的解读应首先将其视为共享运行时和驱动逻辑改变系统行为的证据而非单调的性能提升叙事。轨迹层面的证据表明完整IHR并非简单的提示词包装。对于TRAE任务完整IHR显著增加了工具调用、大语言模型调用和运行时长表4显示约90%的提示词令牌、完成令牌、工具调用及大语言模型调用发生在被委托的子智能体中而非运行时所属的父线程。因此增加的资源消耗反映了多阶段探索、候选方案比较、成果传递以及额外验证的过程。Live-SWE是同一机制的轻量运行模式它相对温和地提升了流程成本但仍比任何消融实验都更明确地将运行过程推向分阶段工作流。综上所述运行时章程与框架逻辑共同构成了行为层面的真实控制机制而非仅仅是提示词的修饰。表4TRAE NLAH 使用量分配。运行时拥有的父线程与委托子代理的近似总使用占比每样本平均值下一个结论是多数SWE实例不会发生翻转。在TRAE和Live-SWE中超过110/125的缝合SWE样本在完整IHR与各消融设置间结果一致表2。因此有意义的差异集中在一个对组件敏感的小规模前沿案例集合中。完整IHR的表现更接近已解决集替换器而非均匀前沿扩展器它产生了一些仅完整版独有的成功修复案例但也丢失了较轻量设置可保留的直接路径修复案例。附录D汇总了具有代表性的组件敏感型SWE案例。表2RQ1在SWE-bench Verified上的配对翻转情况。统计数值基于相同的125个缝合样本对比完整IHR与各消融设置。F表示仅完整设置能解决A表示仅消融设置能解决S表示两种设置结果一致。最具信息量的失败是方向性偏差而非随机失误。在 matplotlib__matplotlib-24570 案例中TRAE Full 扩展为大规模候选搜索运行多重选择器与重新验证阶段最终仍产生局部看似合理却未通过官方评估的补丁。Live-SWE 则在 django__django-14404、sympy__sympy-23950 及 django__django-13406 等案例中揭示出更轻量的类似现象额外结构虽使运行过程更有序代价更高昂却逐渐偏离基准对齐的最短修复路径或远离评估者的最终接受标准。这些失败之所以重要并非因为测试框架无效而是表明其能够重塑局部成功信号——这种重塑并不总是与基准验收标准保持一致。4.2 RQ2利用模式消融研究研究问题二探讨的是当线束模式被显式化后它们能否在共享基底上作为模块进行组合与消融。为明确起见本表中的基础版本均针对具体基准。在SWE基准中基础版本指仅配备Shell及文件读写编辑工具的基准Codex实现。在OSWorld基准中基础版本指OS-Symphony在添加额外RQ2模块前的NLAH实现版本。我们随后逐一添加各模块文件持久化状态、证据支持的回答机制、验证阶段、自我进化、多候选搜索以及动态编排。这使得SWE基准的各实验行近似于对最小化代码智能体进行的工具与工作流程消融研究而OSWorld的各实验行则是对已结构化计算机使用框架的消融研究。第一种模式是模块效应集中于一个较小的已解决边界而非整体均匀地改变基准线。大多数任务要么被几乎所有条件稳健解决要么在所有条件下均未解决因此具有信息量的差异来自那些在控制逻辑变化时发生翻转的边界案例。因此对研究问题二的解读应侧重于模块如何重塑困难案例的边界而不仅仅是对平均分数的排序。第二种模式是模块分为两个性质不同的类别。自我进化是改进求解循环本身最清晰的模块范例。轨迹证据表明其主要优势并非开放式反思而是构建了更严格的接纳门控尝试循环——该循环始终保持搜索范围狭窄直至失败信号证明需要开启新一轮尝试。例如scikit-learn__scikit-learn-25747这类案例符合此解释该模块通过围绕常规修复尝试强制实施更清晰的成功标准而取得成功而非通过扩展成高成本的候选方案树。相比之下文件备份状态与证据支撑作答主要改善的是流程结构。它们会留下持久的外部标记如任务历史、清单文件和分析侧载文件这强有力地证明其确实实现了状态与证据处理的外部化。这些模块带来的增益较为温和表明它们更直接提升的是可审计性、交接规范性和追溯质量而非语义修复能力。第三种模式是更明确的结构并不意味着最终任务性能的自动提升。动态编排在行为上是真实有效的而非惰性的因为它改变了哪些SWE实例被解决但其主要作用是作为已解决集的替代者而非扩展解决边界。验证器和多候选搜索体现了同一原则的更严苛版本。验证器增加了一个真正独立的检查层然而诸如sympy__sympy-23950等失败案例表明验证器级别的接受标准仍可能与基准级别的接受标准存在偏差。多候选搜索使搜索行为更加可见但在当前的运行时和预算条件下它似乎因开销过大且对基础设施过于敏感而无法将这种更丰富的行为转化为更好的总体结果。OSWorld从不同的起点指向同一方向由于其基础条件已是一个结构化框架最有价值的补充仍是那些更轻量的模块——它们能在不增加厚重额外抽象层的前提下强化局部组织性。总体而言RQ2并不支持“结构越多越好”的简单结论。更合理的解读是当显式模块能够压缩从中间成果到最终目标的路径时它们才能真正发挥作用。行为与评估者的接受条件保持一致而当它们主要添加的是那些成功标准与最终基准仅弱对齐的本地流程层时提供的帮助则较少。附录E将令牌成本视图与基础联合视图相结合并辅以代表性的案例研究使相同的机制层面模式更加具体。4.3 研究问题三从代码到文本的治理框架迁移RQ3为一项配对迁移研究每个测试工具均以两种实现形式呈现源代码与重构后的NLAH并在统一的报告框架表5下进行评估。其目标在于实现任务级别的等效性——即具备可比性的外显逻辑、合约规范及面向基准测试的产出物而非追求完全一致的内部执行轨迹。在OSWorld平台上迁移后的OSSymphony实现得分达47.2而原生代码测试工具仅获30.4分。然而更重要的差异在于行为模式而非纯粹数值表现。原生OS-Symphony将控制流程外化为基于截图的修复循环验证上一步操作、检查当前屏幕、选择下一个GUI动作并在出现焦点或选择错误时进行本地重试。而在IHR范式下同类任务往往重新聚焦于文件驱动的状态管理与制品驱动的验证机制。运行过程会实体化任务文件、操作日志和显式制品且当文件操作、命令行或包层级操作能提供更可靠完成凭证时系统会更主动地从脆弱的GUI修复转向此类操作。表5RQ3配对代码到文本约束比较。在IHR框架下每个约束均以原始源代码与重构的NLAH进行对比评估。此处代码指代原始源代码实现。保留的RQ3档案使此次迁移具体可见。原生端呈现36条主轨迹及7条短嵌套search_1轨迹而迁移端则呈现34条保留的内部事件流与2条缺失内部流的存根。这意味着原生拓扑是一种桌面控制循环偶有可分离的教程旁路而迁移后拓扑是一种契约优先的运行时流程其状态存储于任务文件、分类账和制品中。搜索在功能上得以保留但在拓扑结构上进行了重置。在6个迁移后仍保留内部流量的原生搜索样本中仅3个同时包含显式的网络搜索另有1个迁移样本在不具备原生搜索_1分支的情况下使用了网络搜索。因此搜索较少作为辅助子智能体分支存续而更多地以内联运行时支持的形式存在服务于底层选择与确定性修复。验证的重心进一步显著转移。原生痕迹往往止步于屏幕合理性的判断而迁移后的运行则更多地依赖于路径可寻址的证据来达成闭合例如一份已写入的文件、一份重新打开的文档、一个包级对象或一次系统查询。这一转变至关重要因为在OSWorld任务中失败往往并非源于首次尝试的意图未达而是发生在恢复与闭合阶段。保留的迁移轨迹也更为密集但这种密度不应被简单解读为原始行动乘数。在成对保留的样本中原生主轨迹平均包含18.1个步骤而迁移轨迹平均约有18.2个独立命令起点但由于运行时会同时保留开始/完成配对、簿记操作及显式工件处理记录的事件总数达到58.5。因此这种额外的密度更宜理解为可观测性增强与恢复框架的体现而非显著增多的任务行动量。这些趋势与RQ2中OSWorld模块的结果一致——文件备份状态是最显著的正面增益因素这也有助于解释为何NLAH实施方案获得的是适度性能提升而非性能损失。案例概述。代表性案例具体说明了相同的机制。在系统配置任务中原生运行过程始终受困于图形用户界面焦点修复而NLAH实现则转向终端侧配置并仅在完成显式sshd验证后才关闭。在电子表格任务中原生运行虽显示出明显的可视化进展却无法稳定完成关闭而迁移后的测试工具能确定性写入目标产物并在完成前重新打开验证。在演示文稿任务中原生测试工具能获取正确的教程路径却仍在对象绑定与拖拽控制上存在困难而迁移后的工具直接编辑.pptx文件包并对生成的幻灯片产物进行验证。综合来看这些案例表明迁移的主要效应并非高层级编排能力的损失而是将可靠性机制从本地屏幕修复转移到了持久化的运行时状态与基于产物的确定性关闭机制上。5.讨论代码与自然语言。我们并非主张自然语言应取代代码而是指出自然语言承载着可编辑的高层控制逻辑而代码仍负责确定性操作、工具接口和沙盒执行。本研究的核心主张在于比较单位的确立将控制模式逻辑外化为具备共享运行时语义的可读、可执行对象。为何自然语言仍然重要。一个自然的担忧是更强的基础模型是否会降低自然语言控制的价值。实证研究表明在某些场景下复杂提示工程带来的收益可能减弱或变得脆弱Wang等人2024aCao等人2024。然而我们的研究结果对智能体系统提出了不同的解读当自然语言被用于指定框架层级的控制时——包括角色定义、合约规范、验证节点、持久状态语义以及委托边界——而不仅仅用于单次提示的措辞它依然至关重要。这一框架与业界实践者的观点一致他们强调上下文工程和长期运行的框架设计Anthropic2025a,bOpenAI2026aLangChain2026a。同时它也兼容新兴的框架感知评估与框架合成研究这些研究将周边的控制栈视为被评估系统的一部分Ding等人2026Lou等人2026Chen等人2026b。搜索线束表征。当线束成为显性对象时它们便构成了一个可搜索空间。显性的线束模块能够在共享假设下进行手动设计、检索、迁移、重组及系统性消融。从长远来看这预示着我们将能对线束表征进行自动化搜索与优化而非依赖不透明的捆绑工程从而使线束工程发展为一个更受控的科学对象。6.相关工作提示即程序与大语言模型编程系统若干研究方向将提示词与大语言模型调用视为可编程对象。Liang等人提出部分提示词即程序并研究了开发者如何构建基于提示词的软件系统Liang et al., 2025。提示件工程进一步将基于提示词的系统框定为软件工程对象关注其可维护性、测试与集成问题Chen et al., 2026b。在语言与系统层面LMQL为提示过程添加约束与控制流Beurer-Kellner et al., 2023DSPy编译声明式大语言模型流水线Khattab et al., 2024APPL实现了提示词与Python程序的集成Dong et al., 2025SGLang则为结构化语言模型程序提供执行系统Zheng et al., 2024。Cheng等人研究了提示词与程序间的状态共享机制Cheng et al., 2025。这些工作主要针对调用或流水线进行编程我们的研究重点则是管控多步骤智能体调用、工件合约、委托、验证与持久化状态的治理层。智能体控制模式与编排核心智能体控制模式包括推理-行动循环Yao等人2023、检索增强Lewis等人2021以及反思/自我反馈Shinn等人2023。后续研究将这一范畴拓展至记忆与自我进化Zhang等人2026Xia等人2025、多智能体通用系统Fourney等人2024、工作流生成Li等人2024Zheng等人2025以及动态拓扑/路由Wang等人2025b,cYue等人2025Ke等人2026Costa2026。我们的工作是互补性的我们并未提出新的编排算法而是将智能体调度模式的逻辑外部化为共享运行时下的可执行表示。自然语言到工作流、约束与执行的转换多个系统能够将自然语言转化为工作流或可执行约束AutoFlow 可从自然语言描述生成工作流Li 等人2024FlowAgent 研究合规性与灵活性之间的平衡Shi 等人2025而 Agint 则将软件工程智能体编译为智能体图Chivukula 等人2025。AgentSpec 专注于运行时执行机制Wang 等人2025aContextCov 则从智能体指令文件中推导出可执行约束Sharma2026。OpenProse 与 Lobster 提供了接近自然语言编写体验的工作流/规约系统OpenProse2026OpenClaw2026。与编译为运行时拥有的中间表示不同IHR 直接解释治理逻辑依赖显式合约和持久化工件以实现可审计性实践中的约束工程与自动化约束合成近期上下文折叠研究通过压缩长程智能体的交互历史来处理邻近系统问题Sun等人2025Su等人2026。近期的公开工程报告将约束工程描述为长时运行智能体鲁棒性的主要驱动因素Anthropic20242025a,b,c2026b,aOpenAI2026aLangChain2026b,aBui2026。在学术研究方面AutoHarness明确将约束合成作为优化目标自动化生成能改进智能体行为的代码约束Lou等人2026。通用模块化约束研究则关注多轮环境中的模块化约束结构Zhang等人2025。我们的工作与之不同专注于将约束设计模式层作为一种自然语言表示对象进行研究该对象可在共享智能运行时下执行。可复用的指令载体与技能诸如AGENTS.md、AgentSkills及相关技能包等自然语言载体表明可移植、可附加的操作性知识能够以文本形式封装并在不同环境中复用AGENTS.md2026AgentSkills2026。近期的技能研究进一步推进了这一理念将技能视作可从经验中创建、为情境工程演进、或作为可复用的程序性记忆维护的对象而非固定的一次性指令Hao等2026Ye等2026Mi等2026Zhang等2026。技能同时提供了一种替代性的模块化基础配备技能库的单一智能体有时可替代显式的多智能体通信但这一替代在任务需要真正并行执行、私有状态或对抗性角色结构时会失效Li2026。在生态系统层面AgentSkillOS研究如何组织与编排大规模技能集合而SkillsBench、SkillCraft和PinchBench则评估跨任务迁移、高层工具组合以及多样任务下的实际技能调用Li等2026a,bChen等2026aPinchBench2026。我们将此理念从可复用的本地指导扩展至可执行的系统级控制。7 结论我们研究是否可将「马具」设计模式层外部化为一个可执行、可比较、可消融的对象。我们提出了自然语言智能体马具及智能马具运行时该运行时可在共享运行时语义下直接解释马具逻辑。通过当前的编程与计算机使用基准测试我们提供了受控证据证明该技术栈在操作上可行支持模块级组合与消融并能支撑有效的代码到文本马具迁移研究。这些结果表明了通向马具表示科学的一条路径即马具模块将成为一等的研究构件而非围绕模型的附属粘合代码。自然语言不如代码精确某些测试框架机制无法从文本中忠实还原尤其当这些机制依赖于隐藏的服务端状态、专有调度器或从已发布制品中无法观察到的训练诱导行为时。运行时污染仍是实际风险强大的共享运行时宪章可能会吸纳部分本应归因于测试框架文本的行为。模块级消融并非严格的因果识别文本表征可能引入干扰因素例如指令显著性和提示长度。外部化测试框架模块能够降低开发成本、提升方案可比性并促进稳健工作流的复用。然而可移植的框架逻辑与脚本也可能降低传播高风险工作流的门槛。由于测试框架中介着工具使用、工件处理与任务委托环节它们可能为提示注入、恶意工具嫁接或供应链污染引入新的攻击面。实际部署应结合溯源追踪、审查机制、权限控制与沙箱隔离策略。A 从模型调用到智能体调用多模态大语言模型可视为从上下文c到输出y的映射其中上下文可包含文本、图像或视频。yLMm(c).y\mathrm{LM}_m(c).yLMm​(c).为支持工具使用我们采用了一种可调用外部工具的结构化动作格式。我们将基础模型调用提升为智能体调用并将任务定义为T(p,Fin,κ),T(p,F_{\mathbf{in}},\kappa),T(p,Fin​,κ),其中p为任务提示FinF_{in}Fin​为输入文件或链接资源集合κ为执行合约包含必需输出、预算、权限范围、完成条件及指定输出路径。一次智能体调用是指AgentCall(T,Ωtin)(At,ΔΩt,yt),\mathrm{AgentCall}(T,\Omega_t^\mathrm{in})(A_t,\Delta\Omega_t,y_t),AgentCall(T,Ωtin​)(At​,ΔΩt​,yt​),其中ΩtinΩ^{in}_tΩtin​表示调用开始时的可见环境与文件状态AtA_tAt​为指定工件集合∆Ωt∆Ω_t∆Ωt​是环境修改项yty_tyt​为指向工件并声明成功或失败的归一化最终响应。单一模型调用是一种退化的特殊情况此时κ强制要求单次应答且不执行外部操作。B 文件备份状态的标准工作空间文件支持模块将规范化工作空间视为持久化跨步骤状态的权威承载载体。表6文件支持状态的标准工作区布局与文件角色映射。C 共享运行时技能概述IHR中使用的固定运行时技能并非特定于基准测试的工具套件。它编码了共享运行时章程该章程使得不同工具套件技能能够在公共底层上执行。在操作层面该章程强制贯彻了五个核心理念• 仅运行时父级角色。顶层智能体承担协调者而非直接执行者的职能因此即便是名义上的单智能体框架实际也实现为“父级运行时单任务子智能体”的架构。这种设计将实质性的工作空间操作保留在子智能体内并使任务委派的边界可供审查。表7针对研究问题一的代表性组件敏感软件工程案例。• 最小化委托基线。若未加载任何工具技能或已加载技能不完整运行时首先从基准合约构建最精简的可运行基线随后将额外技能视为该基线上的覆盖层。此机制构成了RQ1“无工具技能”条件背后的共享基础。• 具备显式上下文语义的调用图恢复。运行时从技能文本中重构角色、阶段、重复结构及独立性要求并将其实现为子智能体启动。fork_contexttrue表示子智能体将分叉并继承父级累积的对话上下文fork_contextfalse则表示子智能体从全新的独立上下文启动仅接收明确传递的最小任务包。结合独立分支的一次性瞬时子智能体与全新上下文子智能体该机制保持了原始工具中模型调用的边界而非将所有内容压缩至单一长对话中。• 运行时状态与最终产物的分离。持久化中间状态仅在需要复用或审计时写入STATE_ROOT默认路径/sa-output/runtime而可评审的交付产物则存放于/sa-output/artifacts。这使得运行时能够暴露稳定的证据界面而无需镜像整个任务工作区。• 合约优先的完成度与可审计性。基准输出与完成度关卡仍是核心合约但当工具声明采用分阶段或多角色执行时运行时必须保留可审查的证据。因此在RQ1中移除运行时技能实质上是移除了编排、上下文、产物及报告规范的共享层而非仅仅删除额外的提示文本。D 补充研究问题1案例注释表7列出了影响我们RQ1解读的代表性软件工程案例。其目的并非建立详尽错误分类而是通过几个对组件敏感的样本揭示配对翻转现象背后的核心机制适度结构辅助、过度扩展搜索损害、直接路径过度结构化以及局部验证器失配。E 补充研究问题二分析图4为SWE RQ2提供了两个补充视角。API成本估算采用了OpenAI API定价页面访问日期2026年3月26日上公布的GPT-5.4文本token费率输入每百万token 25美元输出每百万token 150美元。由于我们的日志仅提供总提示词和补全数量因此计算中排除了缓存输入折扣、超过27万token的上下文长度附加费以及工具或容器使用费。图4SWE RQ2的补充视图。左图根据公开的GPT-5.4文本定价解决率与每样本的预估基于token的API成本关系。右图各消融模块的独立解决率及其与Basic模块的联合解决率。左图比单一评分表更清晰地分离了各模块。自我进化是唯一向上移动而未大幅右移的模块这与其“收紧求解循环而非简单扩大搜索树”的主张相符。文件支持状态与证据支持回答模块仅小幅右移即获得温和的分数提升这表明其优势主要在于流程结构优化而非大幅提升正确性。从此视角看验证器尤其是多候选搜索处于劣势而动态编排在分数上与基础方法接近但成本并不相同。右图解释了为何部分得分中性或轻微负面的模块仍具有行为研究价值。动态协调器与验证器即使独立得分较低仍能扩展基础并集解集的范围因此它们改变了可恢复的边界案例而非仅仅维持原有行为不变。自主进化成功案例scikit-learn__scikit-learn-25747。基础方案未能通过此样本但自主进化机制成功解决。该演进轨迹围绕显式的尝试契约组织运行过程其中尝试1仅在满足任务验收门限时才被视为成功。在此案例中系统在尝试1后即结束运行而非扩展为更大的重试树评估器确认最终补丁修复了目标FAIL_TO_PASS测试。这正是自主进化的理想范式额外结构使首次修复尝试更规范且与基准门限要求更契合。文件/证据阳性案例mwaskom__seaborn-3069。基础方案在此样本上失败而文件备份状态和证据备份解答均能解决此问题。在文件备份状态下工作空间留下一个持久化的核心框架包含父级响应、仅追加的任务历史记录以及已升级补丁工件的清单条目这使得子级交接和工件谱系变得明确。在证据备份解答下运行过程生成一个独立的分析工件将补丁与直接观察、根因推理以及对名义轴回归的聚焦验证相联系。综合来看这一对案例表明当更清晰的状态交接和发布纪律帮助求解器保持单一补丁表面和单一验证脉络时这些模块的效能最强。验证器有效案例django__django-11734。当核心主张能够被独立且精确地验证时验证器即可发挥作用。在此样本中验证器阶段不仅复述了补丁内容它重新运行了针对OuterRef行为的定向Django测试检查了由此产生的关联查询行为并检验了生成的SQL是否与定义该缺陷的外层模型列绑定。基准测试随后采纳了这一判断并将该样本标记为已解决。这正是验证器体现价值的场景验证器的本地验收对象与基准测试的最终验收标准高度一致。共享反例sympy__sympy-23950。该样本可通过Basic与self-evolution解决但file-backed state、evidence-backed answering、verifier、dynamic orchestration及multi-candidate搜索均无法通过。verifier运行过程尤其具有参考价值因为最终响应明确表示独立验证器报告“已解决”但官方评估器仍判定test_as_set失败。这集中体现了RQ2中更广泛的警示信号额外的流程层可能使运行过程更具结构性且在局部更可信但仍会偏离基准测试的实际验收目标。因此将RQ2解读为对中间控制结构与最终评估器行为间一致性的研究而非关于增加结构性的单调叙事才更为恰当。F RQ2中使用的共享模块下方的模块框是对研究问题二中共享行为的简明释义性总结而非原始技能文本的逐字复制。文件持久化状态 根目录在 /sa-output 下选择 STATE_ROOT需与原始任务工作区隔离并维护 STATE_ROOT/RESPONSE.md 作为稳定的运行时状态文件。 移交准则任何提示、角色指令、回复或升级产物均不被视为已移交除非其以 TASK.md、SKILL.md、RESPONSE.md 或其他命名文件的形式存在于 STATE_ROOT 下。 子任务包每个已启动的子任务接收 children/id/TASK.md 和可选的 children/id/SKILL.md并回写 children/id/RESPONSE.md。 簿记规则在 state/task_history.jsonl 中以仅追加方式保存任务启动与升级历史在 artifacts/manifest.json 中索引已升级的输出产物并通过路径重开文件以实现复用与恢复。**证据支撑的回答** **工作产物**在提出任何最终答案、最终补丁或解决方案主张前须为当前任务或阶段撰写一份独立的证据文档作为指定的证据工作产物。 **结构**内容应涵盖问题陈述、相关材料、观察到的现象、根本原因、候选解决方案、验证过程及残留不确定性。 **主张规范**每项主要主张必须注明其来源是直接观察还是推断并在可获得的情况下提供最小支持范围或输出片段。 **准出条件**若证据文档中仍存在未引用、相互矛盾或在实质上不完整的关键主张则不得发布完整答案。**验证者分离原则** **角色**验证者负责参照原始问题及完成核查所需的最简化任务材料对单个候选答案进行检验。 **流程**识别候选答案的核心主张将其分解为可验证的子主张审核其完整性、事实准确性与逻辑正确性并在可行时至少执行一次核心独立检验。 **输出**返回唯一的主要判定结论并附报告说明判定依据、列出已执行或受阻的检验项目且不得代表候选答案进行修正。自我进化循环运行显式重试循环首次需执行真实基线尝试默认上限为五次尝试任务另有规定除外。触发机制每次遇到非成功、部分成功、不稳定或停滞的尝试后需基于具体失败信号进行反思再规划下一次尝试。进化轴线沿提示、工具和工作流三个维度重新设计下一次尝试确保第二次尝试实质性地体现第一次尝试的反思成果。终止条件持续循环直至判定成功或达到尝试上限若未成功应报告“未完成”而非默认最后一次尝试已通过。多元候选项搜索 预算使用明确的候选项预算K未指定时默认K5若分支在返回可比证据前崩溃则恢复已损耗的预算。 多样性通过改变核心假设、问题分解、证据路径、工具方案或风险偏好确保候选方案之间不存在近似重复。 筛选剔除重复、缺乏支持、处于劣势或风险过高的分支随后根据任务契合度、证据质量、连贯性及修复成本对留存分支进行比较。 升级机制若无候选方案达到足够标准应扩展或重新设计搜索流程而非强行选定一个脆弱的最优方案。动态编排 自主性除必需的子代理外仅在委托能实质性提升覆盖范围、响应速度、专业聚焦或质量控制时增加额外子代理并优先采用最小充足拓扑结构。 拓扑结构对任务形态进行分类为每个子代理分配非重叠的职责与成功条件仅对真正独立的分支进行并行化处理。 父级职责选定委托拓扑后父级应负责启动协调、等待监控、结果比对与集成统筹而非执行子代理的具体操作。 边界界定任务工作区的直接熟悉过程或存储库探查行为应在委托执行承诺后归属于子代理职责范围而非由父级承担。

更多文章