阿里:验证驱动高效深度研究代理

张开发
2026/4/16 16:22:51 15 分钟阅读

分享文章

阿里:验证驱动高效深度研究代理
标题Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design来源arXiv, 2603.28376v1摘要深度研究智能体Deep Research Agents能够自主开展开放式调研将复杂信息检索与多步推理融合于多样化信息源之中以解决现实世界问题。为在长周期任务中维持该能力可靠的验证机制在训练与推理阶段均至关重要。现有范式的一个主要瓶颈在于在问答数据合成、轨迹构建与测试阶段扩展中缺乏显式验证机制。各阶段引入的错误会向下游传播进而降低智能体整体性能。为此我们提出Marco DeepResearch—— 一种以验证为核心的框架设计从三个层面进行优化的深度研究智能体问答数据合成在基于图与基于智能体的问答合成中引入验证机制在控制问题难度的同时确保答案唯一且正确轨迹构建设计验证驱动的轨迹合成方法将显式验证模式注入训练轨迹测试阶段扩展在推理阶段将 Marco DeepResearch 自身作为验证器有效提升高难度问题上的性能。大量实验结果表明我们提出的 Marco DeepResearch 智能体在 BrowseComp、BrowseComp-ZH 等极具挑战性的基准测试上显著优于现有 8B 规模深度研究智能体。尤为关键的是在工具调用上限为 600 次的约束下Marco DeepResearch 甚至超越或接近多款 30B 规模智能体如通义 DeepResearch-30B。️文章简介研究问题如何解决现有深度研究智能体因缺乏显式验证机制导致在数据合成、轨迹构建及推理阶段产生错误传播并降低整体性能的问题主要贡献论文提出了 Marco DeepResearch一个基于验证中心设计的 8B 规模智能体通过三层验证优化显著超越同类小模型并媲美大模型。重点思路验证性数据合成引入对抗性唯一性验证机制结合基于图谱和基于智能体的合成方法确保生成的问答数据具有难度、答案唯一且正确解决实体混淆导致的歧义问题。验证驱动轨迹构建设计包含主智能体、搜索子智能体和验证子智能体的多智能体框架在训练轨迹中注入对中间步骤和最终答案的显式验证与修正模式。验证引导测试时扩展在推理阶段利用智能体自身作为验证器结合“全部丢弃”上下文管理策略在达到最大步数或检测到退化信号时重置并重试有效扩展计算预算以提升难題求解率。混合训练流程采用监督微调学习验证行为模式随后利用基于结果的奖励和组相对策略优化进行强化学习进一步提升策略的鲁棒性。分析总结实验表明 Marco DeepResearch 在 BrowseComp 等多个高难度基准上显著优于其他 8B 规模智能体且在工具调用受限下性能逼近甚至超越部分 30B 规模模型。消融实验证实在数据合成中加入对抗性验证能过滤噪声样本显著提升下游任务表现轨迹中包含显式验证模式可平均提升约 2% 的性能。验证引导的测试时扩展策略效果显著相比基线在多个基准上平均提升超过 12 分证明显式验证能有效解锁推理时的计算潜力。将训练上下文窗口从 64K 扩展至 128K 能进一步捕捉长程依赖为需要多轮工具交互的深度搜索任务带来持续的性能增益。个人观点论文通过显式的自我纠错和对抗性数据清洗以较小的模型规模实现了极高的推理可靠性。附录

更多文章