CVPR 2026 | 深圳大学等提出OddGridBench:大模型也玩“找不同”?底层视觉感知能力竟远输人类

张开发
2026/4/13 21:26:04 15 分钟阅读

分享文章

CVPR 2026 | 深圳大学等提出OddGridBench:大模型也玩“找不同”?底层视觉感知能力竟远输人类
不知道你有没有玩过“找不同”的游戏在一堆几乎一模一样的图标里迅速揪出那个颜色深了一点点或者角度歪了几度的“异类”。对我们人类来说这似乎是一种本能心理学上称之为弹出效应Pop-out effect。但你有没有想过那些能写代码、解奥数的视觉语言大模型MLLM在面对这种简单的底层视觉任务时表现如何呢最近来自深圳大学、广东省人工智能与数字经济实验室深圳、深圳技术大学、清华大学深圳国际研究生院以及美团的研究团队联合发布了一项非常有意思的研究。他们提出了一个专门针对这种底层视觉感知能力的基准测试 ——OddGridBench。该基准测试的命名寓意深远OddGridBench结合了认知心理学中经典的“找不同Odd-One-Out”范式并采用了结构化的网格Grid布局。为了解决模型在这些任务上的“视力问题”研究团队还配套提出了一个名为OddGrid-GRPO的强化学习框架。这里的 GRPO 借鉴了 DeepSeek-V3 的优化思路并针对网格定位任务进行了“距离感知”的特殊设计。论文地址: https://arxiv.org/abs/2603.09326机构信息: 深圳大学人工智能与数字经济广东省实验室(广州)深圳技术大学清华大学深圳国际研究生院美团项目主页: https://wwwtttjjj.github.io/OddGridBench代码仓库: https://github.com/GML-FMGroup/OddGridBench为什么大模型需要玩“找不同”在过去的一两年里多模态大模型在搞层语义理解上突飞猛进但在底层视觉感知Low-level Visual Perception上却一直缺乏系统的审视。研究团队认为细粒度的视觉差异敏感性是所有高阶能力的基础。这种现象在视觉科学中常用最小可觉差Just Noticeable Difference, JND来描述。试想一下如果一个模型连图标旋转了 5 度都看不出来它又怎么能准确地在工业检测中发现微小的裂纹或者在复杂的空间场景中进行精准的推理呢底层能力的缺失实际上会削弱高层推理的可靠性。人类视觉对颜色、旋转和大小差异的感知过程如上图所示人类视觉系统对这些微小变化非常敏感。然而目前的模型在面对这些任务时往往表现得像个“近视眼”。OddGridBench一场严苛的“视力测试”为了量化这种感知能力研究团队构建了OddGridBench。它包含 1400 个测试样本涵盖了四个核心视觉维度颜色差异 ()在 CIE-Lab 颜色空间中精确控制色差范围设定在 [5, 20] 之间。大小差异 ()微调图标的缩放比例通常在 85% 到 115% 之间波动。旋转差异 ()控制图标的旋转角度范围在到。位置差异 ()让图标在网格单元格内产生 5% 到 12% 的轻微位移。OddGridBench 任务概览包含单属性和多属性组合为了确保测试的纯粹性研究团队从 IconFont 和 Material Design Icons 收集了大量的矢量图标SVG并将其归类为人工制品、自然元素和符号三大类。整个数据生成流程非常严谨通过参数化的 Python 程序研究者可以精确控制每一个图标的属性确保测试的客观性和可重复性。数据生成流水线从图标收集到网格图像合成实验结果大模型集体“翻车”实验结果令人大跌眼镜。研究团队测试了包括 GPT-5注论文中称为 GPT-5-low、Gemini-2.5-Pro、InternVL3.5 以及 Qwen3-VL 在内的 19 个主流模型。结果显示人类的平均准确率高达 87.47%而目前表现最好的开源模型 Qwen3-VL-32B 也只有 68.07%。更让人意外的是一些顶尖的闭源模型表现并不理想Gemini-2.5-Pro 仅为 49.29%而 GPT-5 甚至只有 28.93%。各模型在 OddGridBench 上的雷达图人类表现遥遥领先通过下表我们可以看到更详细的数据在“旋转”和“位置”这两个维度上模型的表现尤其糟糕。例如InternVL3.5-38B 在位置差异检测上的准确率仅为 10.00%。这说明目前的 MLLM 在空间感知和几何特征提取上存在明显的短板。各模型详细准确率对比表研究团队还进行了一项有趣的分析如果放宽要求只要模型预测的位置在正确答案的邻域内TolAcc准确率会大幅提升。比如 Qwen3-VL-4B 的准确率会从 52.43% 提升到 74.14%。这暗示了模型其实“看”到了差异但在将其映射到具体的行列坐标时由于空间校准Spatial Calibration能力不足而犯了错。OddGrid-GRPO如何“矫正”模型的视力为了提升模型的感知能力研究团队提出了OddGrid-GRPO框架。其核心逻辑在于将强化学习与底层视觉特征深度耦合。1. 课程引导优化Curriculum-Guided Optimization学习要循序渐进。研究团队将 30,000 张训练图像按难度分为“简单”15K、“中等”10K和“困难”5K三个等级。难度由网格大小、差异属性数量和扰动幅度共同决定。训练从明显的视觉差异开始逐渐过渡到几乎难以察觉的微小差异。这种“由易到难”的策略有效地稳定了强化学习的训练过程。2. 距离感知奖励Distance-Aware Reward传统的强化学习通常只给“对”或“错”的二值奖励0 或 1。但在网格定位任务中如果模型猜的位置就在正确答案旁边它其实已经比猜到天边去要好得多了。因此研究者设计了一个基于欧几里得距离的连续奖励函数其中是预测位置是真实位置是一个随网格大小自适应的参数。这个公式的意思是预测越接近真实位置奖励就越高。这种平滑的反馈信号能更好地引导模型建立空间对应关系。OddGrid-GRPO 框架示意图在训练流程上模型的Input输入是 5x5 到 9x9 不等的网格图像及识别指令Output输出则要求严格遵循 LaTeX 格式如{Row 4, Column 2}。实验证明这种方法非常有效。以 Qwen3-VL-2B 为例经过OddGrid-GRPO训练后其总准确率从17.14% 飙升至 82.64%几乎追平了人类水平强化学习方法对比OddGrid-GRPO 提升显著泛化能力不仅仅是“刷榜”你可能会问这种在合成图标上训练出来的能力能用到真实世界吗研究团队在工业缺陷检测数据集MVTec-AD, VisA以及手写体数据集MNIST上进行了泛化性测试。在 MVTec-AD 数据集上Qwen3-VL-2B 在经过训练后准确率从 20.00% 提升到了 49.00%。这说明经过 OddGrid-GRPO 训练的模型在未见过的真实场景中依然保持了较强的差异检测能力显著优于原始基座模型。跨数据集泛化实验结果此外研究还发现即使不使用网格布局而是给模型输入一串独立的图片Cross-FormatOddGrid-GRPO 训练出的模型依然表现出色这证明了模型真正习得的是通用的差异辨别能力而非简单的网格记忆。写在最后这项研究给我们提供了一个审视大模型的新视角聪明的大脑也需要敏锐的眼睛。虽然目前的 MLLM 在逻辑推理上已经非常强大但在底层视觉感知上仍有巨大的提升空间。OddGridBench 像是一面镜子照出了模型在细粒度感知上的短板而 OddGrid-GRPO 则给出了一条通过强化学习和空间先验来“矫正视力”的可行路径。

更多文章