阿里：验证驱动高效深度研究代理

张开发

• 2026/6/24 0:51:34 • 15 分钟阅读

分享文章

标题Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design来源arXiv, 2603.28376v1摘要深度研究智能体Deep Research Agents能够自主开展开放式调研将复杂信息检索与多步推理融合于多样化信息源之中以解决现实世界问题。为在长周期任务中维持该能力可靠的验证机制在训练与推理阶段均至关重要。现有范式的一个主要瓶颈在于在问答数据合成、轨迹构建与测试阶段扩展中缺乏显式验证机制。各阶段引入的错误会向下游传播进而降低智能体整体性能。为此我们提出Marco DeepResearch—— 一种以验证为核心的框架设计从三个层面进行优化的深度研究智能体问答数据合成在基于图与基于智能体的问答合成中引入验证机制在控制问题难度的同时确保答案唯一且正确轨迹构建设计验证驱动的轨迹合成方法将显式验证模式注入训练轨迹测试阶段扩展在推理阶段将 Marco DeepResearch 自身作为验证器有效提升高难度问题上的性能。大量实验结果表明我们提出的 Marco DeepResearch 智能体在 BrowseComp、BrowseComp-ZH 等极具挑战性的基准测试上显著优于现有 8B 规模深度研究智能体。尤为关键的是在工具调用上限为 600 次的约束下Marco DeepResearch 甚至超越或接近多款 30B 规模智能体如通义 DeepResearch-30B。️文章简介研究问题如何解决现有深度研究智能体因缺乏显式验证机制导致在数据合成、轨迹构建及推理阶段产生错误传播并降低整体性能的问题主要贡献论文提出了 Marco DeepResearch一个基于验证中心设计的 8B 规模智能体通过三层验证优化显著超越同类小模型并媲美大模型。重点思路验证性数据合成引入对抗性唯一性验证机制结合基于图谱和基于智能体的合成方法确保生成的问答数据具有难度、答案唯一且正确解决实体混淆导致的歧义问题。验证驱动轨迹构建设计包含主智能体、搜索子智能体和验证子智能体的多智能体框架在训练轨迹中注入对中间步骤和最终答案的显式验证与修正模式。验证引导测试时扩展在推理阶段利用智能体自身作为验证器结合“全部丢弃”上下文管理策略在达到最大步数或检测到退化信号时重置并重试有效扩展计算预算以提升难題求解率。混合训练流程采用监督微调学习验证行为模式随后利用基于结果的奖励和组相对策略优化进行强化学习进一步提升策略的鲁棒性。分析总结实验表明 Marco DeepResearch 在 BrowseComp 等多个高难度基准上显著优于其他 8B 规模智能体且在工具调用受限下性能逼近甚至超越部分 30B 规模模型。消融实验证实在数据合成中加入对抗性验证能过滤噪声样本显著提升下游任务表现轨迹中包含显式验证模式可平均提升约 2% 的性能。验证引导的测试时扩展策略效果显著相比基线在多个基准上平均提升超过 12 分证明显式验证能有效解锁推理时的计算潜力。将训练上下文窗口从 64K 扩展至 128K 能进一步捕捉长程依赖为需要多轮工具交互的深度搜索任务带来持续的性能增益。个人观点论文通过显式的自我纠错和对抗性数据清洗以较小的模型规模实现了极高的推理可靠性。附录

阿里：验证驱动高效深度研究代理

最新文章

AI推理卡在GC上？.NET 11 GC第7代改进与Span＜T＞-First内存策略（附3个内存泄漏检测脚本）

2026届必备的五大降重复率助手横评

工业机器人智能进化的革命性突破：6自由度机械臂从理论到实践的完整技术解析

为什么你的EF Core向量搜索在K8s集群中频繁OOM？——基于eBPF追踪的内存泄漏根因分析（附诊断脚本+自动修复中间件）

荒岛求生与系统容灾：从《新概念英语》Lesson 12聊聊你的“业务救生筏”准备好了吗？

【仅限首批200名开发者】Dify API v0.12.0未公开的/batch_stream接口性能红利：吞吐提升210%实录

推荐文章

相关文章

分享文章

更多文章

LVGL项目瘦身秘籍：如何用Font Converter生成超小体积的专用中文字库

C++-集群聊天室(1)：Json

为什么Python的默认递归深度限制是1000？

PCIE寄存器操作避坑指南：从lspci查地址到setpci安全写入

你的 Vue 3 useAttrs()，VuReact 会编译成什么样的 React？

终极指南：打造你的专属foobar2000歌词显示体验

君正T31ZX平台OpenIPC固件烧录终极指南：解决不断重启问题

别再为.NET版本头疼了！一个.exe.config文件搞定Win7到Win10的兼容（附完整配置代码）

就在2月5日！维普系统全面升级：查重库与AI算法双重施压，2026毕业季保姆级通关指南

从一次磁盘只读故障，聊聊银河麒麟V10下EXT4文件系统的‘自我保护’机制

从端子到模块：ABB连接器国产替代方案全解读

技术分享】C#上位机实现与汇川全系列PLC的ModbusTCP通信——源码详解及实例应用