这是用户在 2024-7-4 9:29 为 https://app.immersivetranslate.com/pdf/?file=file%3A%2F%2F%2FD%3A%2Fway%2Fyolo%2FR-YOLO_A_Robust_Obj... 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT,第 72 卷,2023 年

5000511

R-YOLO:恶劣天气下的强大物体探测器

王璐彩, 秦宏达, 周璇宇, 陆晓, 张凤霆

摘要— 在恶劣天气下实时学习鲁棒目标检测器对于自动驾驶系统的视觉感知任务具有重要意义。在本文中,我们提出了一个框架,将YOLO改进为一个鲁棒的探测器,表示为R(obust)-YOLO,在恶劣天气下不需要注释。考虑到正常天气图像和恶劣天气图像之间的分布差距,我们的框架由图像准翻译网络(QTNet)和特征校准网络(FCNet)组成,用于逐步适应正常天气域。具体来说,我们使用简单而有效的 QTNet 来生成图像,这些图像继承了正常天气域中的注释,并插入了两个域之间的间隙。然后,在FCNet中,我们提出了两种基于对抗学习的特征校准模块,以局部到全局的方式有效地对齐两个域中的特征表示。有了这样的学习框架,我们的R-YOLO不会改变原有的YOLO结构,因此适用于所有YOLO系列探测器。R-YOLOv3、R-YOLOv5和R-YOLOX在朦胧和多雨数据集上的大量实验结果表明,该方法的性能优于其他以去雾/去雨为预处理步骤的探测器和其他基于无监督域自适应(UDA)的探测器,这证实了我们的方法仅利用未标记的恶劣天气图像来提高鲁棒性的有效性。我们的代码和预训练模型可在以下网址获得:https://github.com/qinhongda8/R-YOLO。

索引术语— 对抗性学习、恶劣天气、图像翻译、鲁棒目标检测器、无监督域适应 (UDA)。

I. I

目标检测是计算机视觉中最重要的任务之一。设计一个具有高精度和速度的坚固目标探测器对于几乎所有配备视觉传感器的感知系统都非常重要,例如自动驾驶系统和机器人。在卷积神经网络(CNN)的快速发展和大规模注释数据集的出现的推动下,

稿件于2022年7月29日收到;修订于 2022 年 11 月 16 日;2022年11月21日接受。公开日期:2022年12月15日;当前版本的日期:2023 年 1 月 11 日。这项工作得到了国家自然科学基金62007007资助,湖南省自然科学基金资助2022JJ30395资助,湖南普通高等学校教学改革研究项目HNJG-2020-0146资助。协调审稿过程的副主编是赵志斌博士。(通讯作者:肖璐)

Lucai Wang、Hongda Qin、Xiao Lu 和 Fengting Zhang 就职于中国长沙410081湖南师范大学工程与设计学院(电子邮件:wanglucai@hunnu.edu.cn; qhd2020@hunnu.edu.cn; luxiao@hunnu.edu.cn; 202030181008@hunnu.edu.cn)。

周玄宇就职于湖南师范大学教育科学学院,长沙410081(电子邮件:zhouxuanyu@whu.edu.cn)。

数字对象标识符 10.1109/TIM.2022.3229717

基于深度学习的目标检测性能得到了显著提高[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]。然而,在恶劣的天气条件下(例如,雾霾和多雨),相机拍摄的图像经常受到悬浮微小颗粒或快速落下的雨滴造成的质量下降[9],[10],[11]。现有的目标检测模型在正常天气图像下训练,由于不同天气条件下输入图像之间的域间隙,往往无法检测到恶劣天气下的物体[12],导致交通事故和潜在危险。

在恶劣天气下收集和注释用于物体检测的大规模数据集既费时又费力,现有方法试图通过两种方式解决这个问题。传统和直接的方法是恢复朦胧和下雨的图像,作为对象检测之前的预处理步骤。然而,现有的图像去雾[13]、[14]、[15]和去雨[16]、[17]、[18]的方法通常基于不同的理论,并且没有统一的恢复框架。此外,将去雾、去雨和检测方法使用的模型组合在一起过于复杂,因此会阻碍目标检测的实时效率。

另一种方法是利用无监督域自适应(UDA)方法[19],[20],[21]来学习鲁棒检测器。UDA 方法将知识从标记源 (LS) 域(正常天气)转移到未标记目标 (UT) 域(恶劣天气),以弥合域差距以改进泛化。用于目标检测器的最先进的 (SOTA) UDA 方法主要依赖于对抗性学习来在全局级别和实例级别对齐源图像和目标图像的表示。然而,在单级目标检测器上使用上述方法存在双重问题。首先,全局级特征对齐很容易触发负转移,这使得 UDA 模型的表现甚至比在源域 [22]、[23]、[24]、[25]、[26]、[27] 上训练的模型更差。其次,实例级特征自适应方法主要针对受益于区域建议网络(RPN)的两级检测器而设计。一些方法[28],[29]提出了使用基于生成对抗网络(GAN)的图像到图像(I2I)转换方法,例如CycleGAN [30],在全局特征对齐之前翻译源图像,以减轻负迁移。问题在于,基于GAN的图像转换方法存在着臭名昭著的不稳定性训练问题,并且由于无法保证语义一致性,生成的图像可能包含像素失真。

1557-9662 © 2022 IEEE。允许个人使用,但重新发布/重新分发需要IEEE许可。

有关详细信息,请参阅 https://www.ieee.org/publications/rights/index.html。

授权许可使用仅限于:集美大学。于 2024 年 6 月 26 日 10:05:29 UTC 从 IEEE Xplore 下载。有限制条件。

5000511

IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT,第 72 卷,2023 年

在本文中,我们主要采用第二种方法利用UDA方法提高单级探测器在恶劣天气下的性能,因为与标注大规模数据集相比,收集未标记的恶劣天气图像相对容易。为了解决上述问题,我们提出了一个基于广泛使用的YOLO [31]网络的鲁棒学习框架。我们的R-YOLO(Robust-YOLO的缩写)由图像准翻译网络(QTNet)和特征校准网络(FCNet)组成,以逐渐减少不同域之间的差异。需要注意的是,R-YOLO不会改变原来的YOLO结构,所有建议的模块都可以在推理阶段删除。因此,我们的方法在理论上适用于所有YOLO系列探测器,包括但不限于YOLOv3 [31]、YOLOv5 [32]、YOLOX [33]等。

具体来说,在图像准翻译步骤中,与传统的I2I转换方法和传统的图像恢复方法不同,我们的目标是生成图像来增强输入标记和未标记的样本。我们声称,作为预处理步骤,没有必要在源域和目标域之间进行严格的转换,我们只能将图像生成为两个域之间的插值,以指导对抗性学习。这就是我们将其命名为 QTNet 的原因。因此,我们设计了一个简单而有效的网络,该网络学习残差图像,以便在源域和目标域之间进行相互图像翻译。与现有的图像平移/恢复方法相比,QTNet具有三个主要优势:1)它生成了具有相同场景但位于不同域的跨域图像,有利于以下基于对抗学习的特征对齐;2)它不需要对朦胧和多雨的图像有先验知识,因此可以统一用于不利的图像翻译任务;3)易于训练,避免了基于GAN的方法的训练问题。

在特征校准步骤方面,考虑到跨域图像(源域和目标域图像以及转换图像),我们在FCNet中提出了两种对抗性学习模块:像素级特征校准(PFC)模块和全局特征校准(GFC)模块,用于源域和目标域之间的特征对齐。其中,PFC模块以像素方式对低级特征进行对齐,以增强前景对象和背景的跨域,这对于降低后续全局特征对齐中的负转移风险非常重要。然后,GFC模块使用多尺度特征对抗训练来消除不同域之间全局特征图上的多样性,并增强对象类别对齐。

通过上述两个步骤,我们可以学习在恶劣天气下实时鲁棒的目标检测器,而无需不利域注释和复杂的预处理。我们的贡献可以总结如下。

1)我们提出了一个统一的单阶段目标探测器训练框架,即R-YOLO,在恶劣天气下,不使用不利域注释。我们的 R-YOLO,由映像 QTNet 和 FCNet 组成

适用于所有YOLO系列检测器,其推理速度与原来YOLO相同。

2)我们设计了一个简单而有效的网络,将正常图像和不良图像相互平移,以生成两个域之间的插值,我们还建议使用两种对抗性学习模块来逐渐减少特征级别的域差异。

3)实验结果表明,我们的R-YOLO系列探测器,包括R-YOLOv3、R-YOLOv5和R-YOLOX,均优于其他对比方法,在基准数据集(合成不良图像)中与标记的恶劣天气图像(目标模型)训练的模型相比,甚至在真实不良图像中优于目标模型。

二、R W

A. 目标检测

目标检测在现实世界中应用广泛,具有重要的现实意义。基于CNN的目标检测方法通常分为一级探测器和两级探测器。两级检测器根据所提出的区域获取感兴趣区域,然后回归边界框并得到分类结果。R-CNN[34]、Fast R-CNN[35]、Faster R-CNN[6]等经典方法具有检测精度高的特点。目前的方法使用Swin变压器[36]作为两级检测器的骨干网络来实现SOTA检测性能。而 SSD [3]、YOLO 系列检测器 [4]、[8]、[33]、[37]、[38] 和 Retina Net [39] 等单级检测器则回归边界框并直接预测类别置信度。在实际应用中,单级探测器因其更快的推理速度而更受欢迎,尤其是在户外应用场景中。在[40]中,Wang等[40]通过构建合成雾数据集提高了YOLOv5在雾场景中的性能。与此不同的是,我们通过利用未标记的恶劣天气图像来提高探测器在雾天和雨天场景中的鲁棒性。

B. 用于目标检测的 UDA

近年来,通过UDA方法提高目标检测器在不同域的泛化性能已成为计算机视觉研究界的热点问题。目前的方法广泛使用对抗性学习来解决这个问题,Chen等[24]在图像级和实例级进行了特征对齐适应,以通过对抗训练来缓解域偏移。Saito等[25]重点研究了全局相似图像的对抗性对齐损失,即具有强局部比齐和弱全局比齐的自适应方法。然而,这些使用区域建议和实例级特征的对抗性特征自适应方法仅适用于两级检测器。

在单阶段检测器中,Kim等[22]提出了一种弱自训练策略,即弥补目标域分类信息的不足,减少硬负挖掘过程中的假阳性和假阴性。

授权许可使用仅限于:集美大学。于 2024 年 6 月 26 日 10:05:29 UTC 从 IEEE Xplore 下载。有限制条件。

WANG et al.: R-YOLO:恶劣天气下的鲁棒物体探测器

5000511

图 1.我们的 R-YOLO 概述。首先,我们在配对图像(X,X)上训练QTNet,以获得翻译后的图像ˆX和ˆX。然后将所有图像输入FCNet,FCNet使用任何YOLO系列检测器作为骨干检测器(在本图中,我们以YOLOv3为例)。在多层YOLO特征图中增加了两个特征对抗学习模块,即PFC模块和GFC模块,以逐渐减小域之间的偏差。

Chen等[23]从骨干网络中提取了每个特征图位置的概率,并将概率图在相应类的源图像和目标图像之间进行匹配,以加强其激活的一致性。然而,在上述方法中,由于恶劣天气下的复杂环境,前者更难区分假阳性和假阴性,使得基于自训练的方法容易受到误差累积问题的影响。至于后者,尽管域散射减少了,但由于恶劣天气中存在的不同类别的干扰,其他潜在的潜在信息被忽略了。

C. I2I 翻译

最近,基于GAN的I2I翻译方法被提出来用于域之间的图像翻译任务。其中,pix2pix [41]和CycleGAN [30]分别是应用最广泛的配对和不配对图像翻译方法。它们都依赖于对抗性训练来确保生成的图像的分布与目标域中的分布无法区分,目标域存在已知的稳定性问题。Hoshen和Wolf[42]提出了一种在未配对图像上训练的非对抗性域映射方法;但是,生成的图像包含语义失真,因为没有保持语义一致性的约束。与现有的I2I平移方法不同,我们尝试通过学习残差图像来模拟正常图像与其配对的雨状或朦胧图像之间的映射[43]。

III. PM M 我们将正常天气下的样本和恶劣天气(阴霾或雨天)下的样本分别定义为源域 X 和目标域 X。在本文中,我们可以访问 NLS 样本 {(x , y , b )} 和 x ∈ X,以及相应的边界框 b 和类别标签 y 。目标域具有未标记的样本 {(x )},其中 x ∈ X. X和 Xshare C 对象类别,但与不同的天气特征和数据分布不同。

在这项工作中,我们提出了一个统一的框架来训练一个在恶劣天气下鲁棒的实时物体探测器,该框架建立在最常用的单级探测器YOLO[31]之上,因此我们称之为R-YOLO。回想一下,我们有两个主要目标来提高YOLO在恶劣天气下的性能:1)设计一个简单而有效的图像翻译网络,用于数据增强,而无需引入基于GAN的方法的训练问题;2)提供为单级检测器量身定制的特征对齐网络,避免触发负转移。我们的框架概述如图 1 所示。考虑到通过渲染技术[44]对给定的正常图像合成不利图像X很容易,我们提出了一个基于简单U-Net的QTNet,该U-Net在配对图像(X,X)上训练,以相互转换源图像和合成目标图像。然后,我们可以得到翻译后的源图像和目标图像,分别表示为 ˆX和 ˆX。之后,所有转换后的图像和输入图像被输入到基于任何一个YOLO系列探测器的FCNet中。

授权许可使用仅限于:集美大学。于 2024 年 6 月 26 日 10:05:29 UTC 从 IEEE Xplore 下载。有限制条件。

5000511

IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT,第 72 卷,2023 年

图 2.QTNet的架构。利用多尺度重构损耗对各尺度的图像生成进行监督,利用感知损失对高维特征学习进行监督。

在FCNet中,我们对多尺度YOLO特征进行了两种对抗性学习,以局部到全局的方式对齐特征,以避免触发负转移。

A. 准翻译网络

QTNet的目标是设计一个统一的网络,适用于朦胧和多雨的图像,因此在图像翻译过程中无法探索任何特定天气的信息或先验。受残余图像在图像恢复和增强任务(如图像去雨 [45]、[46]、[47] 和图像阴影去除 [48]、[49]、[50])等方面的成功启发,我们设计了带有残差模块的 QTNet,以直接缩小从输入到输出的映射范围,使学习过程更容易。QTNet的详细结构如图2所示,其中我们使用简单的自编码器作为骨干,并添加跳跃连接路径,将多层编码器特征融合到解码器特征中。为了改进网络训练过程,我们在自编码器的输入和输出之间添加了跳过连接,以允许它学习负残差映射。

具体来说,给定源域和目标域图像X和X,我们可以得到合成的目标图像,Xvia撕裂技术与[46]相同。然后,可以在配对图像(X,X)上训练QTNet,即,如果Xare用作输入图像,则Xare用作真实图像,反之亦然。我们利用多尺度重构损失来监督图像翻译后语义保留的网络训练,可以定义如下:

L(x ) =

d

i=1

λL

(

QTNet(x ), x

)

(1)

其中 x 和 QTNet(x) 分别是 QTNet 的输入和输出图像。x 是对应于 x 的真值图像,例如,x 的朦胧图像。L(·, ·) 是均方误差 (MSE) 损失,d 是强制执行的损失的总层,λ 是每个刻度对应的权重参数。请注意,尽管我们的 QTNet 是在合成图像上训练的,但它在训练后可用于翻译真实图像。

我们还使用感知损失来生成逼真的图像。具体而言,给定QTNet的输出图像及其对应的地面实况图像,我们使用预训练网络(例如在ImageNet上预训练的VGG)来提取上述两个图像的特征。然后我们利用这两个特征之间的MSE损失来评估生成图像的真实性,使感知损失Lcan指导QTNet训练进行高真实感图像生成,可以定义如下:

L(x ) = L

(

VGG(QTNet(x )), VGG

(

x

))

.

(2)

然后,训练QTNet的损失总结如下:

L=

1

N+ N

N+N ∑

i=1

(

长(x)+长(x)

)

.

(3)

与pixel2pixel、CycleGAN等基于GAN的方法相比,我们的QTNet重量轻,易于训练。图3显示了一些生成的目标域和源域图像,从中我们可以看出,我们的QTNet对于正常到朦胧和从朦胧到正常的图像转换相当有效,同时在正常到雨的图像转换中产生了一些类似噪声的伪影。原因是 Rain-Cityscapes 数据集中的雨纹是使用这些线条渲染的,并且 QTNet 会学习合成这些线条。应该注意的是,我们使用生成的正常到不利图像来训练我们的检测器,而不是直接使用合成的不良图像。原因是生成的图像不一定与目标域中的图像相同,因为它们可以看作是两个域之间的插值,用于学习共同特征分布。在第四节的实验结果中,我们证明了生成的图像对于指导网络训练适应雨天域具有重要意义。

生成的图像具有三重意义,这有利于以下特征适配步骤:1)我们可以在目标域(或准目标域)中获得丰富的注释样本;2)生成的图像可以看作是源域和目标域之间的插值样本,从而驱动源域决策边界适应目标域;3)对于大量的跨域图像(具有相同场景但处于不同域的图像),我们可以在不考虑语义不一致问题的情况下对齐两个域中的特征,从而避免负转移。

B. 特征校准网络

利用生成的跨域图像,我们在FCNet中进行了基于对抗学习的特征对齐,其关键是学习鉴别器无法识别的共同特征分布。为此,我们提出了两种特征校准模块,PFC模块和GFC模块,以消除两个域在特征级别上的差异。FCNet 建立在 YOLO 骨干网之上,不改变 YOLO 网络结构。我们唯一要做的就是添加两种判别器和相应的损失函数

授权许可使用仅限于:集美大学。于 2024 年 6 月 26 日 10:05:29 UTC 从 IEEE Xplore 下载。有限制条件。

WANG et al.: R-YOLO:恶劣天气下的鲁棒物体探测器

5000511

图 3.我们的QTNet的一些可视化结果是在雾城景观[44]和雨城景观[12]上训练的。

限制特征学习,所有这些都可以删除以进行推理。FCNet 的架构如图 1 所示。

1)

PFC模块:我们发现,与正常天气相比,恶劣天气下的物体细节和背景之间存在巨大差异。具体来说,悬浮的微小颗粒或快速落下的雨滴首先影响前景对象和背景的颜色、边缘和纹理等低级特征,然后导致对象的高级特征(如草图和语义)的差异。因此,将每个像素的低级特征校准为对恶劣天气鲁棒的公共分布是必要且相对容易的。我们对PFC损耗的定义如下:

L(x ) = −

1

高× W

H ×W

j=1

log

(

D

(

G

(

x

))

j

)

+ 日志

(

1 − D

(

G

(

x

))

j

)

(4)

其中 D 是像素化特征鉴别器,是本文中的简单 conv + sigmoid 层,(G (x )) 表示从 G (x) 得到的特征图中第 j 个位置的特征向量,H 和 W 分别是 G (x) 的高度和宽度。

对于QTNet生成的跨域镜像,可以严格保证源镜像和目标镜像的语义一致性。然后,在低级特征图上强制执行PFC损失,可以以像素方式对齐低级特征,从而有效地增强有关前景对象和背景细节的跨域特征。因此,我们可以在不触发负转移的情况下学习一个常见的低级特征分布。

2)

GFC 模块:校准像素级低级特征后,通过多尺度 GFC 模块学习图像级对齐特征表示(例如图像样式、全局亮度和暗度)要容易得多。

根据YOLO结构(以YOLOv3为例),其中提取多尺度特征图并发送到颈部结构中,用于收集不同尺度的特征图

我们在多尺度特征上强制执行 GFC 模块。多尺度 GFC 损失定义如下:

L(x ) = −

K

k=1

H ×W∑

j=1

D 日志

(

D

( G

(

x

))

j

)

+(1 − D )

(

1 − D

( G

(

x

))

j

)

(5)

其中 D 是第 i 个训练图像的域标签,其中 D = 0 表示源域,D = 1 表示目标域,Dis 是第 k 层的鉴别器,本文中 K = 3,D(G(x )) 表示鉴别器 D 在 G 获得的特征图的第 j 个位置的输出。

如图 1 所示,本文在 Darknet-53 的第 27、44 和 52 卷积层之后添加了多层 GFC 模块。这三个域鉴别器由一个简单的 Conv + BN + ReLU 层组成。

3) FCNet 的训练损失:FCNet 的训练损失定义为源域 X 和转换目标域 X 上的目标检测损失以及特征校准损失的组合。为了校准特征分布,我们应该同时优化骨干网络的参数以最小化(4)和(5),并优化域鉴别器的参数以最小化(4)和(5)。为了实现,我们在判别器之前添加了梯度反向层(GRL)[19],用于训练域分类器。

然后,训练 FCNet 的全部损失定义如下:

L=

1

N+ N

N+N ∑

i=1

(

γL(x ) + γL(x )

)

+

1

2

N

2N

i=1

L(x)

(6)

其中 L(x) 和 L(x) 分别是输入图像 x 上的 PFC 损失和 GFC 损失,L(x) 是与 YOLO 中定义的相同定义的检测损失,γ 和 γ 分别是平衡检测损失和特征适应损失的超参数。

授权许可使用仅限于:集美大学。于 2024 年 6 月 26 日 10:05:29 UTC 从 IEEE Xplore 下载。有限制条件。

5000511

IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT,第 72 卷,2023 年

C. 实时效率分析

应该注意的是,QTNet 可以在推理过程中被丢弃,因为它会生成图像作为增强数据,使模型在恶劣天气下具有鲁棒性。此外,PFC 和 GFC 模块也用于培训程序。因此,一旦我们的 R-YOLO 被训练,推理速度就与原始 YOLO 完全相同。我们在第四节-C节的实验结果中测试了推理速度。

四、E R A

A. 评估指标和数据集

1)评价指标:我们以平均精密度(mAP)和平均召回率(mAR)作为评价指标,定量评价我们的方法和其他比较,计算公式如下:

P = TP/(TP + FP)

(7)

R = TP/(TP + FN)

(8)

AR = 2

0.5

R(o)do

(9)

AP =

0

P(R)dR

(10)

mAR =

1

N

i∈N

AR

(11)

mAP =

1

N

i∈N

AP

(12)

其中 o 是 IoU,TP 是 IoU > 0.5 的预测边界框数,FP 是 IoU ≤ 0.5 的预测边界框数,FN 是未预测的真值边界框数,N 是对象类的数量。

2)城市景观:Cityscapes[51]是车载摄像头在正常天气下从不同城市采集的街景图像数据集,训练集中包含2975张图像,测试集中包含500张图像。城市景观中标注了八类对象,包括人、骑手、汽车、卡车、公共汽车、摩托车和自行车。我们使用Cityscapes的训练集作为正常天气域(源域)数据集,并将知识转移到恶劣天气域(目标域)数据集。

3)雾城景:雾城景[44]是利用深度信息在Cityscapes上合成的雾天气场景数据集,其标注信息继承自Cityscapes。合成场景有三个不同的版本,每个版本都具有不同的恒定衰减系数,用于确定雾密度和能见度范围。我们在训练集中使用最不利的雾化版本(模拟衰减系数 β = 0.02),而没有用于训练的注释,并在具有最不利雾化场景的测试集上评估我们的模型。

4)RTTS:真实世界任务驱动测试集(RTTS)[52]是包含合成和真实世界朦胧图像的大型RESIDE[52]数据集的一个子集。我们使用 4807 个未注释的真实世界朦胧图像进行训练和评估

4322 个带注释的真实世界朦胧图像。RTTS 中注释的对象有五类,包括摩托车/自行车、人、自行车、公共汽车和汽车。RTTS中的图像大多为真实世界的交通场景和驾驶场景,覆盖了足够多样化的场景。

5)Rain-Cityscapes:Rain-Cityscapes[12]是由Cityscapes中的3475张图像生成的合成降雨数据集,所有具有不同高斯噪声水平和多角度70和110的雨纹都是通过PhotoShop合成的[53]。对所用 Cityscapes 数据集的每张图像执行随机雨蒙版和混合,以生成合成雨影像。

B. 实验设置和实施细节

为了广泛证明我们方法的有效性,我们利用 YOLOv3 [31]、YOLOv5 [32] 和 YOLOX [33] 上提出的学习框架来训练我们的 R-YOLOv3、R-YOLOv5 和 R-YOLOX。所有实验都是在单个 GPU (NVIDIA GeForce RTX3080) 上的 PyTorch 中实现的。

1)QTNet:QTNet是一种编码-解码结构,包含8个Conv-relu块和8个Dilated Conv-relu块,采用负残差连接设计。所有图像的大小都调整为 416 × 416,并在没有图像增强的情况下馈送到网络中。在本文中,我们针对雨雾天气训练不同的模型。对于这两个模型,我们使用 Adam 优化器,学习率为 2 × 10 个 50 个周期。我们将(1)中的三个参数分别设置为λ=0.6、λ=0.8和λ=1.0,并根据U-Net结构[54]经验设置d = 3。我们使用在 ImageNet 上预训练的 VGG-16 来提取生成的图像和地面实况图像的特征,以便可以训练网络以生成更逼真的图像。

2) FCNet:我们分别遵循 YOLOv3、YOLOv5-M 和 YOLOX-M 网络的原始发布版本 [31]、[32]、[33] 的设置。YOLOv3 的图像大小调整为 416 × 416,YOLOv5 和 YOLOX 的图像大小调整为 640 × 640。我们使用所有原始数据增强方法,就像在已发布的版本中一样。对于 R-YOLOv3,我们使用动量为 0.9 且初始学习率为 1 × 10 的 SGD 优化器。权重衰减到 1 × 10,学习率衰减到 100 个周期后× 10。对于 R-YOLOv5 和 R-YOLOX,我们使用与原始版本相同的设置。我们在 (6) 中设置了 γ= 1.0 和 γ= 0.1。

C. 消融研究 1) 超参数消融研究:我们对超参数 (1) 和 (6) 进行消融实验,以选择最佳值。所有结果分别见表一和表二。我们可以看到 λ= 0.6、λ= 0.8 和 λ= 1.0 的设置可以最小化翻译图像与原始图像之间的 RMSE,而 γ= 1.0 和 γ= 0.1 的设置可以使 R-YOLOv3 达到最佳检测性能。

2)模块的消融研究:我们进行一系列研究

对所有 R-YOLOv3、R-YOLOv5 和 R-YOLOX 进行消融研究,以更好地了解其行为和有效性

授权许可使用仅限于:集美大学。于 2024 年 6 月 26 日 10:05:29 UTC 从 IEEE Xplore 下载。有限制条件。

WANG et al.: R-YOLO:恶劣天气下的鲁棒物体探测器

5000511

图 4.消融研究的可视化结果。所有的实验都是为了让城市景观适应雾气城市景观。

表一

A S R QTN F -C

ON D Vλ, λ, λQTN ;

RMSE I U M

表二 A S R R-YOLO 3 F -C

ON D VγγFCN ;

M AP AR A U M

每个模块在恶劣天气下进行物体检测。我们的消融研究是为了让城市景观适应雾城景观,因为场景非常具有挑战性,大多数UDA方法都对其进行了实验,以评估所提出方法的性能。

我们考虑了四个基线来评估重要模块。第一个基线是在 LS 域映像上训练的基本 YOLOv3/YOLOv5/YOLOX,表示为 YOLOv3/YOLOv5/YOLOX (LS)。第二种是在 YOLO 中加入 GFC 模块,表示为 YOLOv3/YOLOv5/ YOLOX + GFC,用于将 LS 域适配到 UT 域。第三种是将GFC和PFC模块同时添加到YOLO中,表示为YOLOv3/YOLOv5/YOLOX + GFC + PFC,用于UDA。我们还将第四个基线视为将 QTNet 添加到第二个基线,表示为 YOLOv3/YOLOv5/YOLOX + GFC + QTNet。最后,我们考虑完整的模型 R-YOLOv3/R-YOLOv5/R-YOLOX (LS + UT)。由于我们的方法是在 LS 和 UT 域图像上训练的,因此我们训练基本的 YOLO 模型来评估我们方法的下限性能。我们还提出了在标记目标 (LT) 域上训练的仅目标模型,以评估我们方法的上限性能,表示为 YOLOv3/YOLOv5/YOLOX (LT)。

消融结果总结于表III。从结果中可以看出,GFC模块和QTNet分别通过调整全局特征的对齐和生成图像来增强训练样本,在提高检测精度方面非常有效。虽然PFC模块非常简单,但对于我们提出的网络适应低级功能来说,它非常重要和必要。因此,我们可以得出结论,所有提出的模块都仅利用未标记的恶劣天气图像即可有效提高三个YOLO基线探测器的性能,并且我们的R-YOLO具有与YOLO探测器相同的高速推理速度。然而,算法性能提升的幅度随着基线检测器性能的提高而降低,例如,R-YOLOv3 在 mAP 上将基线模型提高了 66.5%,而 R-YOLOv5 和 R-YOLOX 分别提高了 19.3% 和 23.4%。主要原因是 YOLOv5 和 YOLOX 中使用的数据增强技术和其他技巧对于泛化能力的提升也很有效。图4所示的可视化结果也证明了每个模块对检测结果的有效性。请注意,由于篇幅限制,我们仅提供 R-YOLOv3 的结果。

授权许可使用仅限于:集美大学。于 2024 年 6 月 26 日 10:05:29 UTC 从 IEEE Xplore 下载。有限制条件。

5000511

IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT,第 72 卷,2023 年

表三 A R R-YOLO 3/R-YOLO 5/R-YOLOX A C F -C .LS:L S。UT:U T. LT:L T

D. 实验结果 1)基准数据集的比较结果:我们分别与几种SOTA方法在雾霾天气和雨天的目标检测任务中进行了比较,以证明该方法的有效性。

a) 雾城景观的结果:我们比较我们的

R-YOLO,包括 R-YOLOv3、R-YOLOv5 和 R-YOLOX,有两类方法:去雾 + 检测方法和基于 UDA 的方法。对于前一类,我们使用去雾网络作为预处理步骤,然后使用在 CityScapes 上训练的基本 YOLO 模型执行对象检测。最近使用的两种SOTA去雾方法DCPCN [15]和Grid-Dehaze(GIDE)[55]用于预处理。对于基于UDA的方法,我们与几种最新的SOTA方法进行了比较,包括域自适应更快R-CNN(DAF)[24],具有对象关系的平均教师(MTOR)[56],选择性跨域对齐(SCDA)[26],强弱分布比对(SWDA)[25],多级域自适应(MDA)[27],协作自训练域自适应(CST-DA)[57],多尺度对抗(MSA)[27],粗细特征适应(CFFA)[58], 以及基于共同教学的伪标签(CTBL)[59]进行评估。

结果见表IV,其中YOLOv3/YOLOv5/YOLOX(LS)是在LS域上训练的模型,YOLOv3/YOLOv5/YOLOX (LT)是在LT域上训练的模型。可以看出,我们所有的 R-YOLO 模型都优于其他比较方法,在不使用目标域注释的情况下,接近仅目标模型的性能。从图5可以看出,在域自适应之前,模型很难准确检测出被雾遮挡的物体,完全在雾中的物体几乎被遗漏了。而在对方法进行域调整后,通过降低漏检率和误检率,同时提高回归准确率,可以更准确地检测目标。

b) RTTS 上的结果:在这个实验中,我们还使用 Foggy-Cityscapes 中的图像来训练 QTNet 进行翻译

表四

Q C R F -C 与 .LS:L S。UT:U

T.LT:L T

表五

Q C R RTTS V S .LS:L S。UT:UT

RTTS 中的图像。尽管 RTTS 中的图像是真实世界的朦胧图像,但我们发现在合成图像上训练的 QTNet 仍然可以很好地推广到它们。我们将所提出的方法与在源域上训练的基本YOLO模型进行了比较,GIDE + YOLO [55]用于去雾和目标检测,DAF [24],SWDA [25]和基于先验的DA (PDA) [12]用于UDA。由于 RTTS 中没有训练集,因此我们尚未评估目标模型。所有比较结果见表五。从结果中可以看出,我们所有的R-YOLO模型都可以在不同程度上提高原始YOLO模型的性能,分别比第二好的PDA方法高出16.1%、50.4%和63.6%。其中,R-YOLOv5在mAR和mAP上分别提高了19.7%和24.5%,R-YOLOX在mAR和mAP上分别提高了35.9%和22.3%。

c) 雨城景观的结果:在这个实验中,

我们将所提出的方法与最近的SOTA方法进行了比较,包括DAF [24],SWDA [25]和PDA [12]。我们还使用了两种最新的去雨化方法,即空间注意力网络 (SPANet) [61] 和 DNN [46],作为在源域图像上训练原始 YOLOv3 的预处理步骤。定量和定性比较结果分别如表VI和图5所示,从中我们可以看出,即使是我们的R-YOLOv3也表现最好

授权许可使用仅限于:集美大学。于 2024 年 6 月 26 日 10:05:29 UTC 从 IEEE Xplore 下载。有限制条件。

文件名:

-

文件大小:

-

标题:

-

作者:

-

主题:

-

关键词:

-

创建日期:

-

修改日期:

-

创建者:

-

PDF 生成器:

-

PDF 版本:

-

页数:

-

页面大小:

-

快速 Web 视图:

-

正在准备打印文档…
0%