To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models

张开发
2026/4/10 17:54:51 15 分钟阅读

分享文章

To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models
摘要大型视觉语言模型LVLM是近年来出现的强大架构能够同时对视觉和文本信息进行理解与推理。这类模型通常依赖两大核心组件**视觉TransformerViT**与**大语言模型LLM**。ViT 将视觉内容编码为图像令牌序列充当模型的感知前端即模型的“眼睛”而 LLM 则对这些令牌进行解析以完成高级推理、生成回答充当模型的认知核心即模型的“大脑”。 然而目前仍不明确哪些视觉令牌对理解与推理贡献最大以及这些信号从 ViT 传递到 LLM 的效率如何。现有工作大多聚焦于在 LLM 内部识别**注意力汇attention sink**——即那些获得过高注意力、但语义信息较低的令牌。我们则将研究重心转向视觉编码器从 ViT 中识别出一类**范数较大的视觉令牌**称之为 **ViT 注意力汇**。这一问题极少被研究但对大型视觉语言模型而言至关重要。 研究结果表明这些 ViT 注意力汇包含了来自图像的高级语义概念能够让 LLM 更高效地完成理解与推理。尽管它们十分重要但在现有的视觉语言模型架构中这类令牌却常常被忽视。 为探究其作用我们对这些注意力汇令牌中蕴含的信息进行了定性与定量分析。我们还分别提出了**无需训练**与**基于训练**的两类方法以更好地利用 LLM 对这些信息的解读方式与利用程度。通过显式地使用这些令牌我们在多种视觉语言模型和视觉推理任务上均实现了显著性能提升包括但不限于数学解题、逻辑推理与几何理解。这一结果凸显了 ViT 注意力汇在增强视觉推理能力方面的巨大潜在价值。1 引言大型视觉语言模型LVLM将视觉Transformer如ViT的视觉感知能力与大语言模型LLM的生成能力相结合在视觉问答、数学推理等广泛的多模态任务上展现出了优异的性能。随着这类模型不断发展并得到越来越多的实际部署研究者们愈发关注其内在机理尤其是**注意力动态机制**。注意力在视觉语言模型融合与对齐视觉、文本输入的过程中处于核心地位。具体而言注意力权重决定了每个文本令牌如输出令牌受到对应视觉输入令牌影响的程度。这类模型中一个值得关注的涌现行为是**注意力汇attention sinks**现象模型会将过高的注意力不恰当地分配给一小部分令牌且往往与输入内容无关。这些令牌通常对应语义信息低、信息量少的区域例如图像空白区域视觉端或标点符号语言端。该现象在ViT和LLM中均被广泛发现并由于架构的混合特性自然地出现在视觉语言模型中。 现有研究普遍认为视觉语言模型中的注意力汇会损害模型性能相关方法也多聚焦于在推理阶段识别并弱化甚至直接移除这类令牌。然而这些发现与近期大语言模型领域的结论看似矛盾有研究指出注意力汇具有潜在作用能够编码不可或缺的偏置信息有利于长上下文处理并减少特征过度混合。这引出了一个关键问题**在视觉语言模型中注意力汇令牌是否具有本质上的益处如果有能否被清晰理解并有效利用** 为回答这一问题我们首先系统研究了视觉语言模型中注意力汇令牌的产生来源发现其由两部分构成来自ViT主干并传播到LVLM的汇令牌以及LLM自身产生的汇令牌——这一观测结果此前尚未被提出。随后我们重点分析了研究较少的ViT注意力汇并得到三项核心发现(1) 传播而来的ViT汇能够捕获**粗糙、高层的全局上下文信息**(2) 这类令牌对需要高层图像理解或推理的特定任务具有明显增益(3) 由于汇令牌与其他视觉令牌所编码的语义层级存在显著差异全局 vs. 局部使用同一套可学习投影层同时处理两类令牌会在实际应用中降低各自的效果。基于上述发现我们提出一种动态提升视觉语言模型性能的有效策略根据任务类型与图像内容选择性地强化或在部分情况下弱化ViT注意力汇。 具体而言第一基于发现(1)并利用LLM的因果结构我们提出一种简单的**无需训练**方法通过将ViT汇令牌移至序列前端提升模型表现该方法在多种LVLM上均有效尤其适用于需要高层理解与推理的任务。第二我们提出**DIYSink**框架一种基于训练的方案旨在让视觉语言模型更高效地利用ViT汇令牌。该框架采用**双MLP投影结构**分别独立训练以让LLM更有效地使用ViT汇令牌与非汇令牌从而解决发现(3)所指出的问题。在配备双MLP投影的LVLM变体基础上我们进一步使用两种机制动态选择推理阶段应使用哪一类令牌汇、非汇或两者兼顾及其使用程度以实现发现(2)的工程化落地。一种机制基于思维链CoT路由实现**硬选择**另一种则通过少量跨任务数据训练一个轻量级**软加权模块**。 我们在四种ViT–LLM组合结构上验证了所提DIYSink方法视觉主干使用SigLIP和CLIP-ViT语言主干则使用不同规模的Qwen2、Qwen2.5、Phi-2以及Vicuna。实验结果表明我们的方法在广泛的基准任务上持续带来性能提升。 **贡献**总体而言本文贡献主要分为两方面。一方面我们通过分析揭示了ViT注意力汇在视觉语言模型中的角色与功能另一方面基于这些观测我们为开源模型基于训练与闭源模型无需训练提出了简单、系统且有效的改进方案。3 视觉语言模型中的 ViT 注意力汇我们在此对视觉语言模型中的 ViT 注意力汇令牌展开分析探究其在模型中的传播方式、编码的信息内容以及对大语言模型行为产生的影响。我们基于 LLaVA-7B 进行分析并在附录 A 中给出其他模型的分析结果。相关结论在不同视觉编码器CLIP、SigLIP上均保持一致。3.1 传播至 LLM 的 ViT 汇的特性ViT 汇令牌向 LLM 的传播已有研究Darcet 等2024指出ViT 注意力汇具有较高的向量范数。鉴于多数相关工作通过注意力权重识别 LLM 中的汇令牌Sun 等2024Kang 等2025Barbero 等2025Yu 等2024为定量验证这些高范数向量是否会作为汇令牌传播至 LLM我们对 ViT 中计算的令牌范数与其在输出生成阶段从 LLM 获得的注意力权重之间的关系进行可视化结果在 300 对图像-问题样本上取平均。如图 3(A) 所示横坐标为按范数分组后的令牌区间左侧纵坐标与黄色曲线表示落入各区间的令牌平均数量右侧纵坐标与紫色柱形表示生成过程中 LLM 分配给该区间内视觉令牌的注意力权重。 我们观察到 ViT 令牌范数与 LLM 在生成时分配的注意力权重呈**正相关**由此得出结论 ViT 中范数更高的令牌更易获得更高的注意力权重并在 LLM 中成为汇令牌。 具体而言我们发现 ViT 中大多数令牌的范数低于 60仅有少量令牌通常每幅图像 3–5 个范数超过 100而这些高范数令牌获得的注意力权重显著更高约为其余令牌的 7 倍。 我们强调这一相关性并非由模型结构强制保证因此是一项重要发现。它表明 LLM 会隐式继承 ViT 内部的显著性信号揭示出视觉语言模型中视觉与语言模块之间存在强烈的归纳偏置关联。**传播至 LLM 的 ViT 汇在隐空间维度上的分布** 我们进一步探究来自 ViT 的视觉汇令牌如何传播到 LLM。在图 3(B) 中我们绘制了 LLM 自身涌现的汇令牌 \(\hat{I}_{\text{llm}}\) 的隐维度幅值在图 3(C) 中绘制了由 ViT 传播而来的汇令牌 \(I_{\text{vit}\to\text{llm}}\) 的隐维度幅值。数值取自 LLM 倒数第二层并在 300 个样本上取平均。 在所有样本中我们观察到无论输入图像或提示词如何ViT 汇都会在 LLM 中**特定的隐维度上持续保持高激活**如 982、2494、3263 维。这些维度与 LLM 自身汇令牌的激活维度不同。综上 视觉汇令牌会以独立汇令牌的形式传播至 LLM并激活与 LLM 原生汇不同的隐空间维度。 此外这些高幅值汇维度仅在多模态训练后才会出现。在 LLaVA-7B 中LLM 原始的汇维度为 {2533, 1415}而由 ViT 传播而来的汇令牌激活的维度为 {982, 2494, 3263}。这一区分至关重要 “现有研究Kang 等2025依据 LLM 原始汇维度Sun 等2024识别汇令牌并发现重新分配其注意力可提升整体性能。但这一做法可能在无意中混淆了两种不同汇令牌的作用。” 我们认为鉴于二者来源的结构基础截然不同显式地将它们解耦对于理解其各自独特行为至关重要。 **ViT 汇令牌对 LLM 的影响** 基于上述观测我们能够在 LLM 内部定位由 ViT 传播而来的汇令牌。最后我们通过分析其获得的平均注意力权重探究其重要性。在 1000 对图像-问题样本上计算从输出令牌到目标令牌的平均注意力权重后发现平均而言非汇令牌每个令牌获得 0.1532% 的注意力LLM 自身涌现的汇令牌获得 1.27%而 ViT 汇令牌获得 1.13%。这直观体现了 ViT 汇令牌的重要性。3.2 ViT 汇中包含什么信息LLM 如何解读它们上一节结果表明ViT 汇对模型输出具有显著影响说明其可能编码了对模型学习与推理至关重要的信息。为更好地理解这些令牌的内容与作用我们分别对 ViT 和 LLM 中的注意力机制进行分析。 **通过注意力层中的相关性图解读汇令牌** 在 ViT 等 Transformer 模型中注意力图可揭示模型聚合信息的方式Kovaleva 等2019Reif 等2019。在注意力图中纵向列表示某一令牌从其他所有令牌处获得的注意力大小反映目标令牌在处理过程中的相关性或重要性。如图 4(A) 所示我们在给定注意力图中对汇令牌对应的纵向列进行可视化。将该注意力列重塑并归一化后可得到与图像块空间布局一致的二维图称之为**相关性图Relevance Map**。图 4(B) 展示了三幅图像上汇令牌与非汇令牌的相关性图。注意力图取自倒数第二层其中 CLIP-ViT 的第 10 号头H10负责背景第 12 号头H12负责前景。我们观察到非汇令牌主要与其局部邻域具有高相关性而汇令牌则从前景或背景区域广泛分布的令牌处获得注意力这表明 ViT 汇编码粗粒度、高层次的上下文特征且与每个注意力头的特定聚焦目标对齐。 **将 ViT 汇令牌解码为词分布** 我们借助相关性图定性解读 ViT 汇令牌编码的信息。为进行定量分析我们利用 LLM 将视觉令牌解码为词分布。结合相关性图我们可对多幅图像进行分析并收集与目标令牌关联的词分布。 受此前 ViT 概念发现相关工作启发Rao 等2024Chen 等2023a我们在 LLM 中屏蔽所有令牌对视觉令牌的注意力如图 4(A) 中修改后的注意力掩码所示以阻止信息交换。将这些被隔离的视觉令牌前向传递穿过所有层后便可将其嵌入映射到输出词表为每个视觉令牌生成对应的词汇预测。 我们对 300 张猫的图像和 300 张人的图像的词分布进行可视化结果如图 4(C) 所示。可以观察到汇令牌与主体目标如“猫”“人”强相关而非汇令牌产生的语义对齐词汇则少得多。多图像上的定量结果支持了我们的结论**ViT 汇令牌编码粗粒度、高层次的上下文特征且具备明确的语义含义**。3.3 任务分类与初步实验 **解读与假设**。基于上述观察——ViT 注意力汇令牌十分重要且似乎携带粗粒度的高层上下文信息——我们对其用途提出一项假设。具体而言 (1) 我们假设这种紧凑的高层上下文信息对需要全局信息的任务如场景识别非常有用而在高度局部化、难以通过高层上下文捕捉的任务如定位任务中则可能对模型产生干扰。 此外(2) 由于这类令牌的容量固定对于内容复杂、无法被有效概括的图像其带来的增益会被削弱。 为验证这一假设我们设计了一组简单实验。 **基于查询与图像属性的任务分类**。为验证假设我们构建了一个包含 600 对图像-查询的数据集均匀采样自一系列广泛使用的基准包括 GQA、TextVQA、ScienceQA、MME、MathVista。每个样本由 GPT-4o 进行标注包含两项评分 (i) **图像复杂度**衡量场景的视觉密度与丰富程度 (ii) **查询全局性**评估问题是否依赖高层上下文推理或细粒度空间线索。 基于这些连续标注归一化至 [0,5]我们将每个样本划分为三类见图 5(A) **全局任务**低图像复杂度、**局部任务**高复杂度且低查询全局性以及**混合任务**其余样本。 **ViT 汇令牌对下游任务的影响**。我们采用两种配置探究推理阶段 ViT 汇令牌的影响 (1) 仅使用汇令牌Sink-only (2) 仅使用非汇令牌Non-sink-only即推理时只向 LLM 输入 ViT 汇令牌或非汇令牌作为视觉信息。 从图 5(B) 的结果可以观察到仅使用汇令牌的配置在**全局任务**上取得了很强的性能说明 ViT 汇中紧凑的高层上下文信息对这类任务十分有用。与之相反在局部任务中移除汇令牌能提升性能表明汇令牌可能带来干扰。 这一观察证实了 ViT 汇令牌编码了有用的语义概要信息但仅在合适条件下有效。它们对视觉复杂度低、语义全局的任务有益而在需要局部化、高细节视觉处理的任务上则可能降低性能。 这种依赖于上下文的特性凸显了自适应使用汇令牌的重要性并为后续面向任务感知的视觉令牌选择提供了设计动机。4 大型视觉语言模型LVLM框架重构4.1 免训练方法适用于无法进行训练的场景 受第3.3节分析结果的启发我们提出一种简洁且有效的推理阶段策略名为**汇令牌前置sink-to-the-front**。该策略将ViT汇令牌重新放置到视觉令牌序列的起始位置使得后续令牌能够引用汇令牌信息在需要高层上下文的混合任务与全局任务上带来收益见图5左侧同时保持模型在局部任务上的性能。该方法**无需额外训练**可直接应用于任意已有的大型视觉语言模型。 具体而言在推理阶段对于来自LVLM视觉编码器的视觉令牌序列我们首先依据公式(1)的定义通过令牌特征范数识别出ViT汇令牌。在将序列传入连接器与大语言模型之前我们将这些汇令牌及其对应的位置编码一并移动到视觉令牌序列的最前端。4.2 从头训练方案优化模型的信息流 分析中的发现第3.3节表明ViT汇令牌是有用的语义概要信息但仅在合适的条件下才能发挥作用。为充分且动态地利用汇令牌的“能力”我们提出一种从头训练的方法**DIYSink**以优化LVLM中的视觉信息流。 DIYSink包含两个核心设计组件 (1) **双MLP投影层**独立处理ViT汇令牌与非汇令牌避免两种表征相互混淆 (2) **动态令牌选择模块**以输入信息作为门控机制帮助LVLM在推理阶段决定使用哪一类视觉令牌ViT汇令牌、非汇令牌或两者同时使用。双MLP投影层如第3.1节所述汇令牌具有独特的特征例如高激活值与大范数与非汇令牌差异显著。因此使用共享的MLP连接器很难将两类令牌有效投影到符合大语言模型预期的统一语义空间。为解决这一问题我们在DIYSink中引入**双MLP投影器**。每个MLP仅针对汇令牌或非汇令牌进行专属训练使其能够专精于将对应类型的令牌投影到适配大语言模型的嵌入空间。 形式化地设和分别为ViT汇令牌与非汇令牌这两个不相交的集合。我们定义两个独立的MLP连接器用于投影汇令牌用于投影非汇令牌。 在预训练阶段每个连接器仅使用其对应的令牌进行独立优化其中为预训练使用的语言建模损失。 借助独立训练的两个MLP在微调阶段我们分别用它们转换ViT汇令牌与非汇令牌将全部汇令牌与非汇令牌拼接并按照标准的大语言模型微调流程进行训练Liu et al., 2023c。动态令牌选择在双MLP投影的基础上我们探究两种机制以根据输入复杂度与任务需求**动态选择**推理阶段应使用的令牌类型汇令牌、非汇令牌或两者。一种机制基于思维链CoT路由实现**硬选择**另一种则利用轻量级的软加权模块该模块仅需少量跨任务数据即可训练完成。 在第3.3节中我们通过实验观察到汇令牌对场景级、整体性理解任务效果显著而非汇令牌更擅长捕捉细粒度细节。基于该观察我们设计两步式思维链流程对给定任务进行预分类 (1) 判断图像是符号类图像局部细节极少还是真实场景摄影图像 (2) 判断问题查询需要整体推理还是局部视觉理解。 依据上述规则如果任务面向符号/简单图像且需要整体推理则推理阶段**仅使用ViT汇令牌**如果任务面向真实/复杂图像且需要局部视觉理解则**仅使用非汇令牌**对于其余所有混合或模糊场景则同时使用两类令牌生成最终答案。需要说明的是该方式等价于硬0/1式的令牌选择。 除思维链方法外我们还探索了一种可学习的**重加权机制**在将令牌输入大语言模型之前动态平衡汇令牌与非汇令牌的贡献度如图2中的重加权MLP部分所示。 将输入问题传入冻结的句子编码器得到文本问题嵌入其中 d 为编码后句子特征的隐层维度。重加权MLP \(R\) 输出两个标量权重随后使用输出权重对汇令牌与非汇令牌进行加权将拼接结果输入大语言模型训练过程中仅更新重加权模块 \(R\) 的参数其余所有组件保持冻结以避免额外信息泄露并保证评估的公平性。

更多文章