FID-YOLO:融合可见光与红外,复杂环境下行人检测新突破,2026

张开发
2026/4/7 16:45:34 15 分钟阅读

分享文章

FID-YOLO:融合可见光与红外,复杂环境下行人检测新突破,2026
本文核心贡献如下提出EPIAFusion光照感知融合模块引入通道-空间注意力CSAM和Huber损失替代原通道注意力提升红外-可见光融合质量丰富行人特征抑制背景噪声。设计CFAE级联特征聚合模块结合RepVGG重参数化与通道混洗融合多尺度特征增强对遮挡行人的判别能力同时保持推理效率。开发SAFDH尺度自适应检测头采用共享归一化卷积和自适应任务分解解耦分类与定位结合动态可变形卷积改善小目标及多尺度行人定位。实验验证在M3FD、LLVIP和WiderPerson数据集上FID-YOLO显著优于多种基线mAP0.5最高提升4.5%并验证各模块有效性。博主简介​AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者深耕计算机视觉与深度学习领域专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践旨在打通从学术研究到产业应用的最后一公里。 核心专长与技术创新YOLO算法结构性创新于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践为行业提供了具备高参考价值的技术路径与完整解决方案。技术生态建设与知识传播独立运营“计算机视觉大作战”公众号粉丝1.6万成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码显著降低了计算机视觉的技术入门门槛。 行业影响力与商业实践荣获腾讯云年度影响力作者与创作之星奖项内容质量与专业性获行业权威平台认证。全网累计拥有7万垂直领域技术受众专栏文章总阅读量突破百万在目标检测领域形成了广泛的学术与工业影响力。具备丰富的企业级项目交付经验曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案驱动业务智能化升级。 未来方向与使命秉持“让每一行代码都有温度”的技术理念未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新共同推动技术边界以坚实的技术能力赋能实体经济与行业变革。原创自研系列26年计算机视觉顶会创新点《YOLO26魔术师》原创自研系列25年计算机视觉顶会创新点《YOLOv13魔术师》《YOLOv12魔术师》《YOLO11魔术师》《YOLOv8原创自研》《YOLOv5原创自研》《YOLOv7原创自研》《YOLOv9魔术师》​《YOLOv10魔术师》 ​应用系列篇《YOLO小目标检测》《深度学习工业缺陷检测》《YOLOv8-Pose关键点检测》23、24年最火系列加入24年改进点内涵100优化改进篇涨点小能手助力科研好评率极高《YOLOv8魔术师》《YOLOv7魔术师》《YOLOv5/YOLOv7魔术师》《RT-DETR魔术师》0.原理介绍摘要行人检测技术的进步对于智能驾驶、目标跟踪和机器人导航等各种应用至关重要。该领域的许多研究表明图像质量对检测精度有显著贡献。然而恶劣天气、遮挡和尺度变化等意外因素会极大地削弱检测目标的主要特征导致检测精度下降。为解决这些问题我们提出了一种特征增强图像检测YOLO通过整合可见光与红外光信息提升复杂环境下的行人检测性能。具体而言我们设计了一个光照感知图像融合模块用于融合可见光和红外图像信息以生成包含更多信息的新图像从而丰富行人特征。接着引入了一个利用重参数化和通道混洗的级联特征聚合模块以增强模型对复杂场景的理解和泛化能力。此外我们为YOLO检测器开发了一个尺度自适应特征检测头解决了在不同目标尺度下检测小目标的问题。在M3FD和LLVIP数据集上的实验表明FID-YOLO在行人检测方面优于基准模型。此外我们通过消融实验验证了每个提出模块的不可或缺性。引言在复杂环境中精确检测和定位行人是计算机视觉领域的一项关键任务。行人交通事故的频发给交通安全带来了巨大压力因此迫切需要高精度行人检测来满足自动驾驶系统和道路安全监控等应用的需求[1]。随着行人检测技术的不断进步它显著促进了交通事故的减少和行人安全的提升进而提高了道路交通效率并推动了智能交通系统的发展。图像质量直接影响行人检测的准确性[2]。采集到的图像常常受到复杂环境因素的影响例如低光照条件下的遮挡和小目标。图1分别展示了在各种挑战性条件下的行人夜间、烟雾环境、相互遮挡以及雨天拍摄的低分辨率图像。这些复杂条件显著降低了行人检测的准确性。因此在这些具有挑战性的环境中优化行人检测对于提升行人检测性能至关重要。在动态多变的环境中检测行人是计算机视觉领域的一个主要挑战。在过去的几十年里人们采用了多种方法对目标检测进行了各种研究。在端到端检测出现之前许多研究基于传统的视觉测量方法如方向梯度直方图[3,4]、局部二值模式[5]和聚合通道特征[6]这些方法基于手工设计的特征和分类器来检测目标。尽管在早期被广泛采用但预测精度关键取决于这些手工设计特征的质量。这导致在处理复杂环境中的行人目标时模型的泛化能力往往较差。目前深度学习的优势日益凸显。与传统的视觉测量方法相比深度学习已被证明在捕捉行人的复杂特征和可变行为方面非常有效从而得到了广泛应用并带来了显著效益。具体来说行人检测方法可以分为一阶段和两阶段方法。一阶段目标检测方法通过使用锚框直接预测边界框和类别标签同时检测和分类图像中的目标。这些方法具有高效率的优势但可能会牺牲精度。例如SSD[7,8]、YOLO[9–11]和RetinaNet[12]。两阶段目标检测方法首先生成一组提议通常使用区域提议网络然后细化这些提议以预测最终的边界框和类别标签。尽管这些方法通常能实现更高的精度但处理时间往往较长。例如R-CNN[13]、SPPNet[14]、Faster R-CNN[15]、Mask R-CNN[16]。一阶段和两阶段方法在速度和精度之间各有不同的权衡使其适用于不同的应用场景。在此基础上研究人员通过引入辅助技术进一步提高了目标检测精度以往大多数研究利用图像融合[17]、特征金字塔网络[18–21]、迁移学习[22–24]和注意力机制[25,26]来增强深度学习方法以应对特征信息丢失、模态不平衡和位置偏移等挑战。具体而言特征金字塔网络通过集成不同层次特征图的多尺度特征表示构建而成有效增强了检测不同尺寸行人的能力。自顶向下的路径和横向连接确保了高层语义信息与低层细节的有效整合提高了目标定位的精度。迁移学习将预训练模型的知识应用于相关但不同的任务加速模型收敛并增强鲁棒性。此外行人检测中的注意力机制增强了模型聚焦关键特征的能力从而提升了其检测性能。尽管行人检测取得了显著进展但仍存在一些值得强调的挑战首先图像融合可能导致信息丢失和色彩失真这可能无法准确反映原始图像的细节和特征。同时由于低光条件下行人图像分辨率低行人目标的边缘变得模糊。因此开发能够有效恢复目标边界并提高整体图像质量的方法具有重要意义。其次行人检测中的遮挡可能以两种形式出现一种是行人之间的相互遮挡另一种是其他物体对行人的遮挡。这两种遮挡对检测器检测目标的能力有不同程度的影响可能导致漏检和精度下降。此外行人与相机之间的距离会导致行人尺度变化较小尺度的低分辨率行人更容易被漏检。因此提高小尺度行人的检测精度至关重要。为了克服这些局限性我们提出了特征增强图像检测YOLO一个行人检测框架。该模型采用YOLO架构来改善图像质量并最小化检测误差。通过整合可见光和红外光信息所提出的方法优于依赖单一光源的传统检测技术从而提高了行人检测的精度。本工作的主要贡献总结如下设计了一个光照感知图像融合模块用于整合红外和可见光信息生成具有深层语义信息和细粒度细节的复合图像。它采用空间和通道注意力机制在融合过程中聚焦于可见光和红外图像中的关键细节实现了更全面的行人特征表示。设计了一个级联特征聚合模块用于多尺度特征融合将融合后的特征分配到不同尺度。该模块使模型能够更全面地捕获目标信息包括部分遮挡的实例。通过整合多尺度特征该模块提高了模型识别和定位遮挡目标的能力即使在可见度受损的情况下也能确保鲁棒的检测。提出了一个尺度自适应特征检测头以更有效地捕获不同尺度的目标特征增强对小目标的检测。该模块通过使用从多个卷积层学习交互特征的特征提取器在标签分配和检测中实现了任务对齐。联合特征改善了任务间的交互。所提出的方法在LLVIP和M3FD数据集上进行了验证。还进行了消融实验以证明所提出模块的有效性。相关工作行人检测中的遮挡在众多视觉识别任务中遮挡目标检测尤为关键因为它涉及有效识别和跟踪被其他物体部分遮挡的对象。Li等人[27]通过提出一个遮挡估计模块来解决无人机图像中由遮挡引起的特征混淆问题实现了精确的遮挡定位。作者通过多任务交互实现了遮挡引导的检测有效解决了无人机图像目标检测中的遮挡挑战。Hao[28]提出了一种无锚框红外行人检测算法通过设计跨尺度特征融合模块提高了多尺度和部分遮挡目标的检测性能。此外构建了一个分层注意力映射模块以增强复杂环境中行人特征的重要性同时抑制背景信息。Shi等人[29]提出了一种全局-局部感知检测器从输入帧中提取尺度变化的特征信息以解决场景中移动目标的尺度变化和复杂场景引起的频繁遮挡问题。此外他们引入了遮挡感知数据关联对高分和低分检测帧使用不同的度量标准以缓解跟踪场景中的遮挡问题。恶劣天气下的行人检测恶劣天气条件下的行人检测面临图像质量差、光照不均和对比度低等挑战。这些因素可能导致检测性能下降并增加交通事故风险。为了解决这些问题研究人员进行了广泛研究。Liu等人[30]使用了六个可微滤波器根据输入图像的亮度和天气信息自动调整参数。这些调整旨在减轻影响图像的不利因素并恢复其潜在内容从而提高检测性能。此外使用了一个包含正常和低质量图像的混合数据集以确保IA-YOLO能够自适应地处理各种天气条件。Luo等人[31,32]解决了恶劣天气条件下图像质量下降影响目标检测精度的问题。通过使用LaLM方法该方法通过在预测层面而非图像层面最小化退化图像与清晰图像之间的差异来提高精度研究人员在雾、雨和低光场景的实验评估中获得了优越的检测精度和推理速度。小目标检测小目标检测是计算机视觉中的一个先进领域专注于识别和分析图像中细节有限的小目标。Qin等人[33]基于形态特征的多样性将目标与背景分离并考虑目标在时域中运动的连续性通过使用RX滤波器在随机投影中提取目标轨迹。在各种杂波背景序列上的实验验证了所提方法在红外小目标检测领域的检测能力。Wang等人[34]开发了一个名为HV-YOLOv8的新型轻量级网络模型通过在卷积模块中加入残差结构并引入视图组混洗跨阶段局部网络模块提高了小目标检测的准确性。该方法显著减少了参数数量和计算需求。此外仅依靠可见光通常为行人检测提供的信息不足例如夜间和小尺度目标。Cao等人[35]引入了LG-FAPF网络一个端到端系统利用局部引导的跨模态特征聚合和像素级融合来学习鲁棒的行人表示。该网络有效地将局部响应和来自不同实例的相互线索编码到一个统一的描述符中并融合可见光和热信息以实现准确检测。Wei等人[36]结合了UNet和YOLO用于可见光和红外融合通过共享可见光信息进行目标检测。这些方法通过图像融合技术提高了检测精度。然而生成的伪彩色图像有一些类似污渍的区域可能会遮挡视野这可能对目标检测的准确性产生影响。上述大多数研究都旨在提高检测精度但在复杂恶劣天气条件下仍然具有挑战性。因此整合可见光和红外光进行目标检测预计将成为该领域的一个主要焦点。方法论为了应对日益具有挑战性的交通环境我们提出了一个行人检测模型如图2所示。该模型由两个主要部分组成光照感知图像融合模块和目标检测模块。光照感知图像融合模块基于渐进式红外和可见光图像融合网络生成具有更多特征信息的融合图像。它用通道和空间注意力模块替换了跨模态差异感知融合中的通道注意力模块。这一调整使模型能够更有效地捕捉主要特征同时增强其抑制背景噪声的能力旨在提高预测精度和泛化能力。此外通过用Huber损失替换原始的L1范数优化了损失函数提高了训练效率和稳定性。图像融合过程生成一张具有互补信息的单一图像增强行人特征以便更有效地进行行人检测。目标检测模块基于YOLOv8网络构建在骨干网络和颈部之间集成了一个级联特征聚合与提取模块以优化跨尺度特征融合。CFAE模块通过通道混洗结合浅层和深层特征在不增加不必要的复杂度或资源需求的情况下改善了特征集成。在推理阶段引入了重参数化操作以减少计算和内存成本。此外设计了一个尺度自适应特征检测头使用共享卷积在减少参数的同时使特征提取器能够学习跨任务的交互特征从而提高复杂环境中的检测精度。具体来说图3是图2的详细展开更全面地展示了行人网络的整体架构。首先渐进式红外和可见光图像作为输入由光照感知图像融合模块处理以在多个尺度上提取深层和浅层特征然后通过差分计算融合生成具有互补特征的融合图像。随后融合图像将被输入目标检测模块该模块由骨干网络、颈部网络和头部网络组成。特别地生成的融合图像输入骨干网络以学习多模态特征表示。然后获得的隐式表示传递到颈部网络进行特征细化和增强。最后头部网络在复杂环境中执行最终的行人检测输出边界框和分类结果。光照感知图像融合模块准确检测行人目标主要依赖于图像特征的鲁棒性。然而现有方法主要基于单光源图像进行目标检测这在低光照条件、恶劣天气或遮挡下可能导致特征表示模糊。为了保留更全面的图像特征我们构建了一个光照感知图像融合模块整合可见光和红外图像。可见光图像包含丰富的纹理和颜色信息而红外图像则突出热目标。通过连接这两个特征流形该模块实现了互补特征提取增强了背景与目标信息的区分度同时抑制了噪声。所提出的模块采用了一个光照感知子网络将环境光照作为融合的先验受PIAFusion[37]启发。然而PIAFusion的一个关键理论局限性在于其在其跨模态差异感知融合中仅依赖通道注意力机制。虽然通道注意力能有效重新校准不同特征图的重要性但它忽略了特征的空间分布。在行人检测中空间细节如肢体定位和边缘至关重要。为了解决这种空间信息丢失我们提出了增强型渐进式红外与可见光图像融合网络。EPIAFusion的核心创新是将通道和空间注意力模块集成到差分融合过程中。通过同时建模通道间依赖性和空间间关系CSAM允许网络关注行人的语义内容同时保留场景的几何细节。在EPIAFusion中使用特征编码器从可见光和红外图像中提取高级特征。图4展示了EPIAFusion的结构。在EPIAFusion中使用特征编码器从可见光和红外图像中提取高级特征。为了有效融合这种差分信息应用CSAM作为补偿机制。理论上简单相加特征会引入噪声CSAM充当动态滤波器。公式(2)阐明了差分分解的原理其中F_i_vi和F_i_ir表示第i个卷积层提取的特征。通过使用通道和空间注意力模块进行补偿可以有效地协调可见光与红外光之间的差分信息。因此CSAM模块定义如公式(3)所示其中⊕表示逐元素求和⊙表示逐通道相乘δ、GAP和GMP分别表示sigmoid函数、全局平均池化和全局最大池化操作。通过应用sigmoid函数将生成的权重缩放到[0,1]范围将通道注意力和空间注意力组合的结果作为模态补偿信息添加到原始特征中从而减轻背景噪声的影响突出用于目标检测的主要特征。为了给白天和夜晚条件的图像分配不同的权重光照感知子网络中的光照感知过程定义如下P_d和P_n分别表示图像是在白天还是夜晚拍摄的可能性。由于可见光图像提供了更多关于光照条件的详细信息光照概率从这些可见光图像中导出。然后使用该光照概率来计算可见光的权重w_vi和红外的权重w_ir。标准融合网络通常依赖于L1或L2范数两者都存在固有的局限性。L2范数对异常值高度敏感容易产生模糊的边缘而L1范数在误差接近零时可能导致梯度更新不稳定。为了提高训练稳定性和加速收敛我们使用Huber损失替换了原始的L1范数。Huber损失提供了稳健的权衡对小误差表现出二次行为确保平滑可微性和细粒度的参数更新对大误差过渡到线性行为从而降低对异常值的敏感性。图像融合网络的损失函数被公式化为光照损失、辅助强度损失和纹理细节损失的加权组合如公式(4)所示。改进的光照感知损失计算公式如公式(8)所示其中L_vi_Huber和L_ir_Huber分别表示可见光和红外光的强度损失。强度损失可以平衡融合前后图像之间的像素值差异。因此强度损失定义如下仅依靠光强度不足以在融合图像中保持最佳强度分布。因此辅助强度损失定义如下为了保留融合图像中的详细纹理定义了纹理细节损失。梯度算子∇用于捕获图像中的纹理信息其中梯度使用Sobel算子计算。级联特征聚合与提取模块为了解决多光谱融合中异质干扰引起的特征稀释效应并增强对复杂背景下行人语义的捕获设计并构建了级联特征聚合与提取模块如图5所示。该模块结合了结构重参数化和多级特征聚合机制通过平衡深层语义提取和原始空间特征的保留在表示表达和计算效率之间取得了平衡。在CFAE模块中RepVGG单元作为基础特征提取算子。如图6所示该单元在训练阶段利用多分支拓扑来捕获不同的空间梯度并平滑复杂多光谱数据的损失景观。其训练输出F_train定义如下在推理阶段这些分支通过结构重参数化折叠成一个等效的单一核。这种转换确保了语义抽象同时保持了O(1)的内存复杂度解决了多光谱模型在部署期间的计算负担。CFAE集成了Shuffle RepVGG结构对应于图7所示的级联RCS组件。SR单元采用通道分割策略将输入特征X分割成主流X_prim和恒等流X_cons其中Φ_Rep表示应用于主路径的RepVGG算子。这种配置为深度网络建立了一个受控的残差路径确保恒等流X_cons中包含的行人目标的原始空间信息在级联过程中得以保留。随后的通道混洗操作完成了不同流之间的跨通道信息交互。此外如图5所示CFAE采用级联的One-Shot Aggregation机制。它通过拼接操作集成初始投影特征x1和SR单元的输出x2、x3其中Φ_out表示最终的投影算子。这种级联设计构建了一个多尺度感受野的集成能够聚合来自不同深度的隐式语义特征。该机制改善了部分遮挡行人的重建并通过重参数化限制了推理时的计算开销。尺度自适应特征检测头为了克服多尺度行人检测中刚性特征提取的固有局限性我们提出了一个尺度自适应特征检测头如图8所示。与将分类和定位解耦为平行但同质分支的传统检测头不同SAFDH是从任务-尺度交互的角度构建的。具体来说它显式地建模了目标尺度和任务目标如何共同影响特征表示这在空间不一致性和尺度模糊性常常并存的多光谱特征融合下尤为关键。SAFDH的一个关键设计原则是在任务特化之前建立一个稳定且尺度一致的共享表示。为此我们引入了一个共享归一化卷积模块实现为share_conv它结合了共享卷积和组归一化[38]。从理论角度来看GN减轻了由光照和模态变化引起的特征分布偏移而参数共享则约束两个任务在统一的语义流形上操作。这种设计不仅减少了计算冗余还为后续的任务感知分解提供了一个条件良好的特征空间。近期的研究如TOOD[39]已经证明建模任务交互可以通过在共享交互空间中对齐分类和定位特征来提高检测性能。然而直接强制任务对齐可能会模糊两个任务根本不同的优化需求尤其是在多尺度行人检测场景中定位高度依赖于尺度而分类则强调语义一致性。SAFDH没有通过单一交互空间直接对齐任务而是将任务学习分解为两个尺度自适应且非对称的路径。我们构建了两个独立的自适应任务分解分支表示为cls_decomp和reg_decomp它们基于全局上下文统计动态地重新加权共享特征。任务特定的变换公式为其中F_shared表示SNC输出Pool(·)编码全局尺度信息。这种公式反映了定位和分类固有的不同优化需求其中定位强调与尺度相关的几何边界而分类则侧重于与尺度无关的语义判别。通过ATD解耦这些目标SAFDH减少了任务干扰实现了尺度感知的特征特化而不是强制统一的任务对齐。此外SAFDH引入了一种针对行人定位几何性质的非对称空间对齐策略。采用了一个偏移和掩码机制来生成逐像素偏移和调制掩码仅在回归分支中引导动态可变形卷积网络v2[40]。空间错位对定位精度的影响更为显著而在分类分支中引入过多的空间变形可能会破坏语义一致性。实验设置与结果分析数据集与模型训练细节在后续实验中我们使用两个公开数据集验证FID-YOLO模型M3FD [41] 和 LLVIP [42]。(1)M3FD数据集由鹏城实验室创建包含4,200对对齐的红外和可见光图像涵盖四种挑战性场景白天、阴天、夜间和遮挡。数据集包含6个类别行人、汽车、公交车、摩托车、卡车和路灯的33,603个目标标注。该数据集在像素变化、光照、季节和天气方面的多样性使其对于训练和评估融合图像中的目标检测具有重要价值。(2)LLVIP数据集专注于低光照目标检测包含来自24个夜间场景和2个白天场景的15,488对可见光和红外图像总计30,976张图像。它提供了时间和空间对齐的图像对并标注了在昏暗光照下红外图像中可检测的目标这对于低光照检测研究至关重要。实验配置详见表1。对于本研究中进行的实验采用随机梯度下降优化器训练YOLO模型输入图像调整为640×640像素。批量大小设置为32初始学习率为0.01。分配16个线程用于数据加载。此外在训练计划的最后十个轮次中禁用马赛克数据增强。评估指标我们通过一套常用的性能指标评估模型在M3FD和LLVIP数据集上的有效性包括IoU阈值为0.5时的平均精度均值、IoU范围0.5至0.95的平均精度均值以及F1分数。此外本研究通过检查参数量来评估模型的计算消耗。实验对比我们将我们的模型与YOLO系列包括YOLOv5n [43]、YOLOv6n [44]、YOLOv7-tiny [45]、YOLOv8n [46]、YOLOv8s [46]、YOLO-MIF-n [47]和ICA-Fusion-n [48]、RGBT-YOLO [49]、DAMSDet [50]、WaveMamba [51]、LASFNet [52]在LLVIP和M3FD数据集上进行对比以验证我们模型的性能。考虑到计算消耗我们选择了YOLO系列中的中小型模型其中“-n”、“-s”和“-m”分别代表nano、small和medium模型。此外为了进一步评估所提出方法的跨数据集泛化能力我们在WiderPerson数据集上进行了额外实验。WiderPerson是一个具有代表性的密集行人检测基准其图像主要从互联网收集表现出高场景复杂性包括杂乱背景和水印干扰。该数据集定义了行人相关目标的五个类别(1) 行人(2) 骑手(3) 部分遮挡的人(4) 类人物体(5) 无法区分个体边界的密集人群区域。由于我们的目标是评估跨数据集的行人检测泛化性能我们将类别1-4统一为单个“行人”类别进行训练和评估而类别5由于缺乏清晰的实例级标注而被排除。这种预处理策略与现有密集行人检测研究中的常见做法一致。M3FD数据集上的对比实验。表2显示了FID-YOLO-n模型在M3FD数据集上与基准模型相比的性能。我们的模型在除参数规模外的所有指标上都优于YOLOv5-n、YOLOv6-n、YOLOv7-tiny和YOLOv8-n。这表明EPIAFusion模块有效地丰富了特征信息以计算资源为代价提高了检测精度。在可见光检测中我们的模型实现了0.801的行人检测精度mAP0.5仅比YOLOv8-s低0.2%。在红外检测中尽管精度低2.4%但我们的mAP0.5比YOLOv8-s提高了2.6%。YOLOv8-s通过增加参数规模实现了高精度但我们的模型参数减少了27.7%在检测精度和计算成本之间保持了平衡。与为混合光输入设计的YOLO-MIF和ICAFusion模型相比FID-YOLO在大多数指标上取得了优越的性能证实了EPIAFusion模块整合可见光和红外图像的有效性。我们的模型还实现了最优的mAP0.5-0.95和F1分数。从图9(a)、9(b)、9(c)分别为可见光、红外光下的基线模型和FID-YOLO的P-R曲线可以看出FID-YOLO的P-R曲线与坐标轴围成的面积更大表明与基线模型相比FID-YOLO能更好地平衡不同阈值下正类的识别和预测的准确性。图10显示了FID-YOLO在M3FD数据集复杂环境中目标检测的优势进一步验证了模型的有效性。LLVIP数据集上的对比实验。图11显示了FID-YOLO与基线模型在LLVIP数据集上的P-R曲线对比。结果表明FID-YOLO在不同阈值下的精确率和召回率均优于基线模型。图12和表3显示了使用不同光源输入的基准模型在LLVIP数据集上的结果。红外图像上的行人检测性能显著优于可见光图像因为红外图像在低光照或黑暗条件下能突出目标轮廓而可见光常常模糊目标特征。然而红外图像可能丢失环境细节。EPIAFusion网络的整合提高了检测性能与使用可见光输入的YOLOv8相比mAP0.5提高了4.5%mAP0.5-0.95提高了12.1%F1分数提高了3%。与红外模型相比mAP提高了1.6%F1分数提高了2%。与现有的多光谱检测方法相比YOLO-MIF和WaveMamba在mAP0.5上取得了有竞争力的性能然而它们表现出相对较低的mAP0.5–0.95表明在更严格的IoU阈值下定位精度有限。DAMSDet展现了强大的检测能力但其巨大的参数规模和GFLOPs反映了显著更高的计算成本。LASFNet在精度和模型复杂度之间取得了良好的平衡但在综合评估指标下其整体性能仍略逊于所提出的方法。总体而言FID-YOLO在保持适度计算复杂度的同时保持了强大的检测精度并在多个评估指标上表现一致。这些结果证明了所提出方法在低光照条件下进行多光谱行人检测的有效性和鲁棒性。此外图12展示了不同模型在LLVIP数据集上的mAP0.5训练曲线进一步证实了所提出方法的稳定性和有效性。WiderPerson数据集上的泛化对比。WiderPerson数据集是一个具有代表性的密集人群行人检测数据集。图像主要从互联网收集许多样本包含可见水印增加了场景的真实性和复杂性。该数据集定义了行人相关目标的五个标注类别正常行人、骑自行车的人、部分遮挡的人体、类人物体和无法区分的密集人群。为了与评估行人检测跨数据集泛化能力的目标保持一致我们保留了类别1至4并将其合并为一个“行人”类别而类别5密集人群区域因其不提供清晰的个体边界框而被排除因此不适合标准行人检测。这种预处理策略与密集行人检测研究中的常见做法一致。此外由于WiderPerson仅包含可见光图像不涉及多光谱或跨模态图像对因此在该数据集上的实验仅使用我们模型的YOLO检测分支。在此设置中未使用所提出的EPIAFusion模块因为图像融合不适用。这种设置能够在显著不同的数据分布下公平评估学习到的检测表示的泛化能力。实验结果总结在表4中。与基线YOLOv8-n相比我们的FID-YOLO在多个评估指标上取得了一致的改进。具体而言FID-YOLO将mAP0.5从0.714提高到0.727mAP0.5–0.95从0.429提高到0.437F1-score从0.68提高到0.69同时保持了相当的精确率和召回率。值得注意的是这些提升仅以适度的计算成本增加为代价表明性能改进并非源于过度的模型复杂度。这些结果表明从多光谱训练数据中学习到的特征表示和检测头在迁移到具有显著不同数据特征的密集、单模态行人数据集时保留了强大的判别能力。这证实了性能提升并非过度拟合M3FD或LLVIP而是反映了在多样化行人检测场景下泛化能力的提高。消融实验本研究以YOLOv8为基础模型在M3FD和LLVIP数据集上进行消融实验以评估FID-YOLO中每个模块的贡献。这些消融研究的结果详见表5和表6全面展示了每个模块对FID-YOLO模型整体性能的影响。表7和表8分别展示了CSAM组件和CFAE配置选择在M3FD和LLVIP数据集上的消融结果。与基线CMADF相比CSAM模块持续提高了mAP表明整合通道和空间注意力有助于融合网络更好地保留语义和几何信息。与仅使用RepVGG或TOOD相比CFAE和SAFDH模块提供了额外的增益验证了它们在多尺度特征提取和任务特定特征分解中的有效性。在两个数据集上将CSAM与下游的CFAE和SAFDH模块相结合都取得了最佳性能表明每个组件都对整体精度有有意义的贡献。我们在LLVIP和M3FD数据集上进行了30个轮次的图像融合训练和评估以观察δ0.5、1、2以及原始L1损失的损失曲线。如图13和14所示当δ1时模型实现了最低的损失也优于原始L1损失。这表明δ1在训练过程中提供了鲁棒性和敏感性之间的最佳平衡。EPIAFusion模块显示出最显著的改进从可见光中捕捉物体的纹理细节从红外光中捕捉特征信息同时通过光照感知保留环境光照。因此与仅使用可见光输入相比在M3FD数据集上mAP提高了1.3%在LLVIP数据集上提高了3.5%。CFAE模块通过整合具有不同感受野的特征增强了网络对遮挡目标的敏感性使mAP分别提高了1.8%和0.5%。SAFDH模块通过任务对齐和共享卷积不仅减少了参数数量还分别将mAP提高了1.3%和0.6%。消融研究证实与基准模型相比所提出的模块在M3FD和LLVIP数据集上都显著提高了平均精度。结果可视化M3FD可视化分析。图15显示了在M3FD数据集上表现良好的模型的一些预测结果。未检测到的目标用黄色圆圈标记假阳性用绿色圆圈表示多重检测用金色圆圈突出显示。在第一组图像中YOLOv8在可见光和红外光下都显示出大量的漏检而我们的模型和YOLO-MIF表现更好。第二组和第三组图像是在夜间遮挡条件下拍摄的FID-YOLO表现出更高的置信度没有漏检或假阳性。在最后一组图像中涉及检测小的、被遮挡的行人目标YOLOv8、YOLO-MIF和ICAFusion都遇到了多重检测问题而我们的模型成功检测到了所有目标展示了其在复杂环境中的优越检测能力。LLVIP可视化分析。图16显示了在LLVIP数据集上表现良好的模型的一部分预测结果。假阳性用橙色圆形标记表示漏检用绿色圆圈表示多重检测用金色圆圈突出显示。在第一组图像中由于夜间环境的限制YOLOv8无法准确识别目标特征导致错误检测。在第二组图像中其他模型表现出良好的检测性能然而与FID-YOLO相比整体置信度存在差异并且ICAFusion模型产生了重复检测。第三组照片显示其他模型未能识别出某些物体特别是在可见光和红外条件下较小的物体如快递车和摩托车。尽管我们的模型产生了一次重复检测但其整体性能仍然优于其他模型。在最后一组图像中我们的模型仍然保持了良好的检测性能只有一次漏检而其他模型在漏检和误检方面都表现出显著问题。这表明与其他模型相比我们的模型在低光照条件下具有更好的检测能力。图17显示了LLVIP数据集上的目标特征热图。与YOLOv8相比FID-YOLO的热图与检测目标的对齐更准确。在第一组图像中光照条件差的情况下网络的输出聚焦于背景和其他无关区域而FID-YOLO则更关注相关目标。结论本研究介绍了FID-YOLO一种整合可见光和红外图像的目标检测方法。FID-YOLO将先进的图像融合技术与YOLOv8架构相结合创造了来自可见光和红外光的信息协同。该过程始于EPIAFusion模块该模块从红外和可见光中提取特征并将其映射到一个统一的特征空间。随后生成的融合图像由改编后的YOLOv8框架处理。在此框架中CFAE特征聚合模块整合来自更深和更浅层的特征增强了模型将遮挡行人与其周围环境区分开的能力。最后SAFDH捕获不同尺度下的目标特征改进模型的特征表示并解决了低分辨率图像中小目标检测的挑战。在M3FD和LLVIP数据集上进行的对比实验和消融研究验证了所提出方法用于行人检测的有效性和可行性。尽管FID-YOLO在行人检测中表现良好但它也存在一些局限性。模型效率可以进一步提高特别是对于资源受限的设备。在红外图像质量非常低或模态间严重未对齐的情况下融合可能会降低性能。此外该模型是在对齐良好的数据集上训练的这限制了对未对齐场景的泛化能力。未来的工作将侧重于轻量化设计、自适应融合、更快的推理以及处理未对齐数据以提高精度、效率和鲁棒性。

更多文章