中科院等顶尖院校:AI实现动手思考式多模态智能基准测试能力突破

张开发
2026/7/1 7:36:19 15 分钟阅读
中科院等顶尖院校:AI实现动手思考式多模态智能基准测试能力突破
这项由中国科学院自动化研究所牵头联合中国科学院大学、东南大学、南京大学、北京大学、北京航空航天大学、南洋理工大学和加州大学洛杉矶分校共同完成的研究发表于2026年4月论文编号为arXiv:2604.03016v1。有兴趣深入了解的读者可以通过该编号查询完整论文。过去我们让AI看图片就像让一个人站在博物馆门口只能远远地看看展品的全貌然后猜测里面有什么宝贝。但现实生活中人类解决复杂问题时会主动靠近、放大镜观察细节、查阅资料验证信息。研究团队发现现有的多模态大语言模型评估方法存在严重缺陷它们只测试AI的被动观察能力却忽视了主动探索的重要性。当前的AI评估就像让学生只看教科书的封面就要求他们回答复杂问题而不允许他们翻书、做笔记或查阅参考资料。这种评估方式显然无法反映真实世界中解决问题的复杂性。研究团队意识到真正智能的系统应该像一位经验丰富的侦探既能仔细观察现场的每个细节视觉扩展又能查阅档案寻找相关线索知识扩展。为了填补这个巨大的评估空白研究团队创建了Agentic-MME基准测试。这个基准测试包含418个真实世界的任务涵盖6个不同领域按照3个难度级别精心设计。每个任务都像一个精心设计的谜题需要AI系统像人类专家一样主动使用工具来发现隐藏的线索然后将这些线索与外部知识相结合最终得出正确答案。这项研究的突破性在于首次建立了真正的过程验证评估体系。传统评估只关心最终答案是否正确就像只看考试成绩而不关心学生是如何解题的。而Agentic-MME不仅要检查最终答案还要详细审查AI系统的每一个推理步骤、每一次工具使用是否恰当、每一个中间结果是否有效。研究团队花费了超过2000个小时进行人工标注平均每个任务需要10多个小时的精心设计和验证建立了超过2000个逐步检查点。一、视觉探索与知识整合AI的双重身份在这个新的评估框架中AI系统扮演着双重角色。首先是显微镜观察员的角色需要主动操控各种视觉工具来发现图像中的细微线索。这就像一位考古学家面对一幅古画不仅要看整体构图还要用放大镜观察笔触细节、用特殊灯光检查隐藏的图层、甚至旋转画作从不同角度寻找线索。AI系统可以使用13种不同的视觉操作工具包括裁剪、旋转、翻转、调整对比度、边缘检测等。每种工具都像考古学家工具箱中的专用设备有着特定的用途。比如裁剪工具可以将注意力集中到图像的关键区域就像用放大镜观察文物上的铭文对比度调整可以让模糊的细节变得清晰如同调节显微镜的焦距。其次是图书管理员的角色需要通过网络搜索来获取图像内容相关的背景知识。这个过程就像一位研究员在大图书馆中查阅资料不仅要知道如何搜索关键词还要知道如何验证信息的可靠性如何将不同来源的信息进行交叉对比。AI系统配备了4种知识扩展工具谷歌文本搜索、谷歌图片反向搜索、网页内容获取和图片下载。这些工具让AI系统能够像人类研究者一样根据视觉线索进行有针对性的信息检索。真正的挑战在于这两个角色需要无缝协作。AI系统必须像一位经验丰富的侦探先通过视觉工具发现线索然后用这些线索去搜索相关信息再用搜索到的信息指导进一步的视觉探索。这种iterative的过程需要AI系统具备高度的规划能力和灵活的问题解决策略。二、三个难度层级从简单观察到复杂推理研究团队将任务按照复杂程度分为三个层级就像游戏中的初级、中级和专家模式。第一级别是单步视觉操作相当于让AI完成一个简单的视觉任务。比如在一张超市货架的照片中某个商品的价格标签可能因为拍摄角度而显得很小AI需要准确地裁剪出价格标签区域并放大然后读取价格信息。这个层级测试AI是否具备基本的视觉工具使用能力就像测试一个人是否会正确使用放大镜。第二级别是多步骤工作流程需要AI系统将视觉操作与知识搜索结合起来。举个例子AI看到一张建筑物的照片需要先通过视觉工具识别出建筑物上的标识然后通过网络搜索查找这个建筑的相关信息最后回答关于该建筑历史或用途的问题。这个层级测试AI是否能够进行简单的跨模态推理类似于让一个人既要观察又要查阅资料。第三级别是高级协同问题解决这是最具挑战性的任务类型。这类任务往往包含模糊的视觉线索需要AI系统进行假设-验证循环。比如AI面对一个极其模糊的商标图像需要先尝试通过图像处理技术提取可能的特征然后基于这些不完整的信息进行多次搜索尝试每次搜索的结果都会为下一轮视觉分析提供指导直到最终确定这个模糊商标的真实身份。这个层级真正测试AI的综合推理能力就像要求一位专家解决现实世界中最复杂的问题。特别有趣的是研究团队在设计第三级别任务时采用了模型在环后向设计的方法。他们先让最先进的AI模型观察原始图像并描述其内容然后专门挑选模型遗漏或错误描述的细节作为关键线索。这样确保了任务确实需要主动的视觉工具使用而不能仅仅通过被动观察来解决。三、革命性的过程验证体系传统的AI评估就像只看学生考试的最终得分而不关心他们是如何解题的。这种评估方式存在严重问题AI系统可能因为运气好而猜对答案也可能因为一个小错误而全功尽弃尽管它的整体推理过程是正确的。Agentic-MME引入了双轴过程验证体系这是该研究最重要的创新之一。这个体系就像两个专门的审查员分别从不同角度检查AI系统的每一个操作步骤。S轴审查员专门负责检查策略和工具执行。它会仔细审查AI系统是否在正确的时机使用了正确的搜索策略。比如当任务要求识别一个模糊的建筑物时S轴审查员会检查AI系统是否提取了合适的搜索关键词、是否访问了相关的网页、是否从搜索结果中获得了预期的信息。这个过程就像检查一位研究员的文献检索过程是否专业和有效。V轴审查员则专门负责检查视觉证据验证。它不仅要确认AI系统是否使用了视觉工具更重要的是要验证这些工具生成的中间图像是否真正包含了所需的视觉信息。比如如果AI系统声称它裁剪了包含价格信息的区域V轴审查员会实际检查这个裁剪结果确认价格信息是否清晰可读。这个过程就像实验室中的同行评议要求提供可验证的证据。为了实现这种细致的过程验证研究团队建立了超过2000个检查点平均每个任务包含5个以上的中间验证步骤。每个检查点都配有详细的人工标注包括预期的操作意图、应该生成的中间结果以及用于验证的具体问题和标准答案。这种详细程度前所未有相当于为每个任务创建了一份详细的标准作业程序。更进一步研究团队还引入了过度思考惩罚机制。这个机制会比较AI系统的解题步骤数量与人类专家的最优解题路径对那些进行了过多冗余操作的系统进行扣分。这就像在考试中不仅要求答案正确还要求解题过程简洁高效。四、统一评估框架兼容不同的AI系统现实中的AI系统就像来自不同厂商的智能手机虽然功能类似但操作方式可能完全不同。有些AI系统擅长编写代码来处理图像有些则更适合使用预定义的工具接口。为了公平比较这些不同类型的系统研究团队开发了一个统一的评估框架。这个框架支持两种主要的交互模式。第一种是代码生成模式AI系统可以编写Python代码来处理图像就像一个程序员面对问题时会编写定制化的解决方案。第二种是原子工具模式AI系统通过调用预定义的函数来完成任务就像使用标准化的工具箱。为了确保公平比较研究团队开发了复杂的标准化机制。对于代码生成模式他们使用抽象语法树分析技术可以从AI系统生成的各种风格的代码中提取出标准化的操作序列。这就像有一位专业的翻译员能够将不同编程风格的代码翻译成统一的操作描述。对于原子工具模式框架提供了13种视觉操作工具和4种知识检索工具的标准接口。每个工具都有详细的参数规范和使用说明确保不同的AI系统都能正确理解和使用这些工具。更重要的是评估框架还处理了许多技术细节问题。比如不同AI系统生成的图像可能采用不同的文件格式或命名约定框架会自动进行标准化处理。对于网络搜索结果框架支持缓存和重放功能确保相同的搜索查询总是返回一致的结果避免因网络内容变化而影响评估的一致性。五、令人意外的实验结果研究团队对多个最先进的AI系统进行了全面测试结果让人大开眼界。即使是目前表现最好的AI系统在这个新的评估标准下也显得相当笨拙。最优秀的AI系统Gemini-3 Pro在整体任务中只达到了56.3%的准确率而在最困难的第三级别任务中准确率骤降至33.3%。这个结果特别有意思因为同样是Gemini-3 Pro在传统的被动观察模式下第一级别任务能达到42.9%的准确率但在第三级别任务中只有7.5%。这说明工具的使用确实能显著提升AI的问题解决能力但距离人类水平还有很大差距。人类专家在相同任务上的平均准确率达到了93.8%即使在最困难的第三级别任务中也能保持82.3%的高准确率。更有趣的是开源AI系统与闭源商业系统之间的巨大差距。开源系统如Qwen3 VL-235B在第三级别任务中的准确率只有10.1%而一些开源系统甚至在搜索策略方面几乎完全失败S轴得分低于5%。这表明当前开源AI系统虽然能够学会调用工具但在复杂的多步推理和搜索规划方面还需要大幅改进。研究团队还发现了一个反直觉的现象结构化的工具接口原子工具模式普遍比代码生成模式表现更好。这可能是因为代码生成对AI系统提出了更高的认知要求不仅要理解问题还要处理编程语法、管理文件输入输出、处理错误恢复等技术细节。但代码生成模式也展现出独特优势它可以进行任意复杂的操作组合不受预定义工具的限制。另一个值得注意的发现是AI系统在工具使用方面的急躁行为。许多AI系统频繁调用视觉工具但生成的中间结果往往质量很差。比如某个AI系统可能会正确地识别需要裁剪某个区域但实际裁剪的位置完全错误导致浪费了交互次数却没有获得有用信息。六、细致的错误分析揭示关键瓶颈研究团队对AI系统的失败案例进行了详细分析发现了七种主要的错误模式就像医生诊断病人时要区分不同的病因一样。最常见的问题是行动消极占所有错误的约50%。这类AI系统面对需要主动操作的任务时往往选择直接从原始图像猜测答案而不愿意使用可用的工具。这就像一个学生面对开卷考试时明明可以查阅资料却坚持凭记忆答题。第二常见的问题是过度思考陷阱特别影响那些较为先进的AI系统。这些系统会陷入重复的工具调用循环中不断尝试相似的操作却无法从中间结果中学习和调整策略。这种行为类似于一个人在解谜时明明已经尝试了某种方法不可行却反复尝试相似的方法。第三个重要问题是不忠实的工具使用。AI系统虽然会调用工具但调用方式不当比如裁剪了错误的区域或使用了不合适的图像处理参数。这就像一个人知道要使用放大镜却把放大镜放在了错误的位置。有趣的是不同难度级别的任务展现出不同的错误模式分布。在简单任务中行动消极是主要问题而在复杂任务中搜索策略失误和工具使用不当变得更加突出。这表明AI系统在不同认知负荷下会表现出不同类型的局限性。研究团队还发现代码生成模式容易出现工具执行错误比如语法错误、运行时异常等低层次问题。而原子工具模式则更多地在高层次规划方面出现问题。这个对比提供了关于如何改进不同类型AI系统的重要洞察。七、验证研究的严谨性为了确保这项基准测试真正有效研究团队进行了多项验证实验就像药物试验需要对照组一样严谨。首先他们测试了图像内容是否是任务解决的必要条件。当研究团队移除所有图像只保留文字问题时AI系统的准确率几乎降至零最好的系统也只有不到3%的准确率。这证明任务确实需要视觉信息不存在数据泄露问题。接着他们验证了主动工具使用的必要性。研究团队比较了四种设置纯被动观察、仅使用图像工具、仅使用搜索工具以及同时使用两类工具。结果显示在最困难的任务中仅使用图像工具甚至会降低性能仅使用搜索工具只能带来微小改进但两者结合使用时效果显著提升。这证明了任务设计的合理性真正困难的问题确实需要视觉操作与知识搜索的协同作用。研究团队还进行了神谕指导实验这是一个特别巧妙的验证方法。他们逐步向AI系统提供人工标注的中间结果观察性能如何改善。结果显示当提供正确的中间视觉证据时AI系统性能有所改善当进一步提供完整的步骤指导时性能大幅提升。但即使在这种开挂模式下AI系统在最困难任务上的表现仍然没有接近完美这说明连续执行和规划仍然是重大挑战。为了验证评估的一致性研究团队使用了三个不同的AI裁判系统并与人类专家的评估进行了对比。结果显示各个评估者之间的一致性很高这证明了评估方法的可靠性。八、对AI发展的深远影响这项研究不仅提供了一个新的评估工具更重要的是揭示了当前AI系统的根本性局限。传统评估就像只测试学生的阅读理解能力而忽视了他们的动手实践和资料检索能力。Agentic-MME的出现就像为AI评估引入了实验课和开卷考试更全面地反映了智能系统在现实世界中的能力。研究结果表明尽管当前的大语言模型在知识储备方面已经相当丰富但在主动问题解决和工具协调使用方面还存在显著不足。这个发现对AI发展方向具有重要指导意义仅仅增加模型参数和训练数据可能不足以实现真正的智能还需要专门训练模型的规划能力、工具使用技巧和多步推理能力。特别值得注意的是开源AI系统与商业系统之间的巨大差距。这表明简单的模型架构复制可能无法达到先进系统的性能水平还需要在训练方法、数据处理和系统优化等方面进行深入研究。这项研究还为AI系统的训练提供了新的思路。传统的AI训练主要关注最终答案的正确性而过程验证体系表明训练AI系统的中间推理步骤可能同样重要。未来的AI训练可能需要更多地关注如何思考而不仅仅是思考什么。研究团队公开了完整的数据集、评估工具和基准测试代码这为整个AI研究社区提供了宝贵的资源。这种开放式的研究方法将加速相关领域的发展帮助研究者更好地理解和改进AI系统的多模态推理能力。说到底这项研究就像为AI系统设立了一面更准确的镜子让我们看清现有技术的真实水平。虽然结果显示AI系统距离人类水平还有很大差距但这恰恰为未来的研究指明了方向。正如研究团队所指出的真正的多模态智能不仅要能看懂图像和理解语言更要能像人类专家一样主动探索、验证假设、协调不同信息源来解决复杂问题。这个目标虽然仍然充满挑战但Agentic-MME为我们提供了衡量进展的可靠标尺这本身就是向真正智能AI迈出的重要一步。QAQ1Agentic-MME基准测试与传统AI评估有什么本质区别A传统AI评估只让AI被动观察图像然后回答问题就像让学生只看教科书封面就答题。而Agentic-MME要求AI主动使用工具既要像侦探一样用放大镜等工具仔细观察现场细节又要像研究员一样查阅资料验证信息最后综合所有线索得出答案。这种评估更接近人类解决现实问题的方式。Q2为什么最先进的AI系统在Agentic-MME上表现不佳A最好的AI系统Gemini-3 Pro整体准确率只有56.3%在最难任务上只有33.3%而人类专家能达到93.8%。主要原因是AI系统缺乏有效的多步规划能力经常在错误的地方使用工具或者陷入重复操作的循环中无法像人类一样灵活协调视觉观察和知识搜索。Q3Agentic-MME的过程验证体系是如何工作的A它使用双轴验证系统就像两个专门审查员。S轴检查AI的搜索策略是否正确比如是否用了合适的关键词、找到了相关信息。V轴检查AI使用视觉工具的效果验证裁剪或处理后的图像是否真正包含所需信息。每个任务平均有5个以上的检查点确保每一步操作都经过验证。

更多文章